2026 年的 AI 竞争,正在从“谁的模型更强”切到“谁能占住任务入口、执行链路和组织控制面”。
今日三条结论
算力故事并没有见顶;随着 agent 从问答走向持续运行,推理与编排会把基础设施需求继续向上推。
企业真正进入规模化采用的分水岭,不是试点数量,而是能否把权限、审计、评测和人工接管嵌进系统。
今日 Top 5 大事件
1. Google 正式把 Search 推向“持续运行的 agent + 即时生成 mini app”
这意味着搜索的产品边界被重写了。Google 不再把搜索定义为一次性问答,而是定义为一个能持续观察、汇总、提醒和触发动作的任务层。
查看完整拆解
Google 在 I/O 2026 后披露,AI Search 已在桌面与移动端全球上线,并开始把 Search agents、agentic booking、以及基于 Antigravity 的定制化 generative UI/mini apps 直接嵌进搜索体验。信息代理会 24/7 在后台监控主题变化,并在满足条件时推送综合更新;用户还可以让 Search 直接生成可持续使用的 tracker 和 dashboard。Google Search Google I/O
Google 在 I/O 2026 后披露,AI Search 已在桌面与移动端全球上线,并开始把 Search agents、agentic booking、以及基于 Antigravity 的定制化 generative UI/mini apps 直接嵌进搜索体验。信息代理会 24/7 在后台监控主题变化,并在满足条件时推送综合更新;用户还可以让 Search 直接生成可持续使用的 tracker 和 dashboard。Google Search Google I/O
2. NVIDIA 交出新高季度,AI 基建景气度继续上修
在外界不断讨论“AI 投资是否过热”时,最核心的上游基础设施公司仍在交出超高增速,而且把叙事从 GPU 销量进一步推进到 AI factories、推理软件栈和 edge computing。
查看完整拆解
NVIDIA 5 月 20 日公布 FY2027 财年第一季度业绩:季度收入 816 亿美元,同比增长 85%;数据中心收入 752 亿美元,同比增长 92%;公司给出的下一季度收入指引为 910 亿美元,上下浮动 2%。公司同时新增 800 亿美元回购授权,并把季度股息从每股 0.01 美元上调至 0.25 美元。NVIDIA
NVIDIA 5 月 20 日公布 FY2027 财年第一季度业绩:季度收入 816 亿美元,同比增长 85%;数据中心收入 752 亿美元,同比增长 92%;公司给出的下一季度收入指引为 910 亿美元,上下浮动 2%。公司同时新增 800 亿美元回购授权,并把季度股息从每股 0.01 美元上调至 0.25 美元。NVIDIA
3. Microsoft 与 EY 给出企业级 agent 落地的可量化样板
行业里大量企业仍停留在“少量员工试用 copilot”的阶段,而这个案例已经进入跨职能、跨流程、可量化 ROI 的生产阶段。
查看完整拆解
Microsoft 5 月 21 日披露,EY 在早期 15 万人部署 Microsoft 365 Copilot 后,已将 Copilot through Microsoft 365 E7 扩展到全球超过 40 万员工;同时,多 agent 框架已经部署到 13 万名 Assurance 专业人员和 16 万个审计项目中。微软披露的案例还包括财务运营 lead time 提速 95%、运营成本下降超过 37%。Microsoft
Microsoft 5 月 21 日披露,EY 在早期 15 万人部署 Microsoft 365 Copilot 后,已将 Copilot through Microsoft 365 E7 扩展到全球超过 40 万员工;同时,多 agent 框架已经部署到 13 万名 Assurance 专业人员和 16 万个审计项目中。微软披露的案例还包括财务运营 lead time 提速 95%、运营成本下降超过 37%。Microsoft
4. Anthropic 收购 Stainless,把竞争推向 SDK、CLI 与 MCP 连接层
这不是单纯的开发工具并购,而是在争夺 agent 时代最关键的中间层。谁掌握更强的连接器生成、工具封装和接口标准,谁就更接近企业真实系统。
查看完整拆解
Anthropic 5 月 18 日宣布收购 Stainless。官方表述很直接:AI 的前沿正在从“会回答的模型”转向“会行动的 agent”,而 agent 的能力上限取决于它能到达哪些系统;Stainless 的重点正是 SDK 与 MCP server tooling。Anthropic
Anthropic 5 月 18 日宣布收购 Stainless。官方表述很直接:AI 的前沿正在从“会回答的模型”转向“会行动的 agent”,而 agent 的能力上限取决于它能到达哪些系统;Stainless 的重点正是 SDK 与 MCP server tooling。Anthropic
5. OpenAI 披露模型在离散几何中自主推翻长期猜想
这不是“帮人润色证明”,而是一次被官方描述为可自主解决该领域中心开放问题的成果。它把“AI 是否开始参与原创研究”从概念讨论推进到了具体案例。
查看完整拆解
OpenAI 5 月 20 日发布研究里程碑称,一个内部通用推理模型已经在离散几何中的 unit distance problem 上,推翻了持续近 80 年的主流猜想,并给出一个可构造的无限族解法;OpenAI 表示该证明已经过外部数学家核验,并附有同行撰写的 companion paper。OpenAI
OpenAI 5 月 20 日发布研究里程碑称,一个内部通用推理模型已经在离散几何中的 unit distance problem 上,推翻了持续近 80 年的主流猜想,并给出一个可构造的无限族解法;OpenAI 表示该证明已经过外部数学家核验,并附有同行撰写的 companion paper。OpenAI
商业与应用解读
大模型公司:Google、Anthropic、OpenAI 的动作正在拉开清晰分工。Google 抢入口层,把 Search 变成 agent 容器;Anthropic 抢连接层,补 SDK 与 MCP;OpenAI 则继续向企业交付层和高价值研究层两端延伸,前者体现在 Deployment Company 与 Dell/Codex 的混合部署路径,后者体现在数学研究突破。Google Search Anthropic OpenAI Deployment OpenAI Codex + Dell OpenAI Research
Agent / coding / workflow:今年企业不会再为“会写点代码的助手”单独付大钱,真正能拿预算的是能接入代码库、文档、工单、CRM、审计链和审批流的执行系统。这也是为什么 Microsoft 在讲执行、Anthropic 在买连接层、OpenAI 在推混合部署,而不是只比模型榜单。Microsoft Anthropic OpenAI Codex + Dell
中国企业与内容服务场景:Google Search agent 化的启发非常直接。国内品牌、电商、知识服务和本地生活平台,需要开始准备“被代理消费”的内容资产,包括结构化商品信息、FAQ、可引用事实、可追踪价格与库存、以及适合自动触发的服务接口。未来用户未必先点内容页,而可能先让 agent 替自己筛选、比较和下单。Google Search
基础设施与组织能力:NVIDIA 的业绩说明,算力仍是一级变量;但 Microsoft/EY 的案例也提醒另一点,真正稀缺的并不只是 GPU,还有能把数据权限、评测、审批、回滚和业务责任串起来的组织能力。很多企业接下来会发现,卡住规模化的不是模型本身,而是治理和系统工程。NVIDIA Microsoft
X 平台高信号观点
趋势信号:X 上围绕 Google I/O 2026 的讨论,焦点已经从“AI 回答好不好”切到“Search 会不会变成长期运行的 agent 管理器”。
这类讨论已被 Google 官方博客实质验证,因为 Google 已明确宣布 Search agents、后台持续监控和基于 Antigravity 的 mini apps 方向。验证状态:已被官方验证。X 事件页 Google Search
观点:一线部署者在 X 上越来越强调,企业 AI 的瓶颈不是模型能力,而是 eval、反馈闭环、权限和组织信任。
这一判断与 OpenAI Deployment Company 的定位,以及 Microsoft/EY 从试点走向生产的案例高度一致。验证状态:已被多官方案例侧面验证。Applied Compute on X OpenAI Deployment Microsoft
趋势信号:X 上关于 AI Search 的讨论,开始把“搜索体验”理解成“可回访、可跟踪、可触发操作的任务面板”,而不是单次结果页。
这和 Google 让 Search 生成 tracker、dashboard 以及异步信息代理的产品方向一致。验证状态:已被官方验证。Glenn Gabe on X Google Search
前沿研究速递
1. CHI-Bench:把 agent 拉进高规则密度的真实医疗流程
这项 5 月更新的工作提出了一个面向医疗运营的长链条 benchmark,覆盖 prior authorization、utilization management 和 care management 等流程,并把 agent 放进一个包含 20 个 healthcare apps、87 个 MCP tools 的高保真模拟器里执行任务。arXiv
2. Claw-Eval-Live:把 agent 评测从静态任务集推进到“活的工作流需求”
Claw-Eval-Live 提出一种 live benchmark,把来自公开 workflow demand signals 的任务需求持续刷新,再配合固定快照、执行痕迹、审计日志和工作区产物做验证。论文报告称,当前最强模型通过率也只有 66.7%,没有模型超过 70%。arXiv