从 DeepSeek 震撼到 Claude Opus 4.5,从智能体元年到多模态突破
全景复盘 2025.1 - 2026.1 人工智能领域的变革历程
2025年是人工智能发展史上具有里程碑意义的一年。这一年,我们见证了大模型从追求参数规模转向追求效率与智能,见证了AI 从对话助手进化为行动执行者,也见证了中国 AI 力量对全球格局的深刻重塑。
DeepSeek 震撼 智能体元年 多模态融合 AI 编程革命 监管落地
如果用一句话总结2025年的 AI 发展,那就是:"没有单一的'神级模型'统治一切,最佳选择取决于你的具体目标。" 这是行业从狂热走向成熟的标志。
🔥 重大事件 ⭐ 重要事件 一般事件
深度求索发布 R1 推理模型,训练成本仅 29.4 万美元(V3 基础模型约 558 万美元),媲美 GPT-4 和 o1。1月27日登顶美国 App Store,引发英伟达股价暴跌 18%,彻底打破"堆算力"路径依赖。[1]
OpenAI 发布首款 AI 智能体 Operator,能自主操作浏览器完成购物、订餐等任务,打响 2025 智能体大战第一枪。[17]
马斯克发布"地表最强 AI"Grok 3,使用 10 万块 H100 GPU(Colossus 超算)训练,AIME 数学竞赛得分 93.3%,LMArena 首次突破 1400 分。[18]
Monica.im 发布全球首款通用 AI 智能体 Manus,GAIA 基准测试超越 OpenAI DeepResearch,被称为"AI Agent 的 ChatGPT 时刻",12月被 Meta 数十亿美元收购。[16]
OpenAI 多模态图像生成功能上线,一周内 1.3 亿用户使用,生成超 7 亿张图像,上线一小时即达 100 万用户,吉卜力风格火爆全网,ChatGPT 周活 2-4 月从 4 亿翻倍至 8 亿。[2]
Meta 发布 Llama 4 系列,但 36 小时后差评如潮,被指控 benchmark 作弊刷榜。Yann LeCun 后承认"结果被捏造",扎克伯格将整个 GenAI 团队边缘化,多名高管离职。[19]
OpenAI 发布 o3 推理模型(o1 继任者)和 o4-mini,首次实现推理模型全工具链调用(网页搜索、Python、图像生成),o4-mini 在 AIME 2025 达到 99.5% pass@1。[27]
阿里发布 Qwen3 系列开源模型,支持 119 种语言,预训练数据达 36 万亿 token,采用"快思考+慢思考"混合推理架构,推理能耗降低 60%。[20]
Google I/O 发布 Veo 3,首次实现音画同步的 AI 视频生成,支持 4K 分辨率,V2A 技术自动生成匹配音轨。[3]
Anthropic 首届开发者大会发布 Claude Opus 4 和 Sonnet 4,Opus 4 被称为"世界最好的代码模型",Sonnet 4 编码准确性较前代提升 16%(SWE-Bench 72.7%)。[21]
OpenAI 发布 o3-pro,自称"最可靠的 AI 模型",专为需要深度思考的复杂问题设计,响应时间 2-3 分钟。AIME 2024 超越 Gemini 2.5 Pro,GPQA Diamond 超越 Claude 4 Opus。[28]
OpenAI 发布 GPT-5,融合 GPT 与 o 系列推理能力,引入智能路由系统,包含 GPT-5、mini、nano 三个版本,深度思考模式下幻觉率较 o3 降低 80%,微软同步宣布全面接入。[4]
联合国大会通过决议,设立人工智能独立国际科学小组(40 国专家)和全球对话机制,标志全球 AI 治理框架形成。
完成 130 亿美元 F 轮融资(ICONIQ 领投),估值较 3 月翻 3 倍,年化收入超 50 亿美元,成为科技行业第二大私募融资。[5]
OpenAI 发布 Sora 2,被称为视频领域的"GPT-3.5 时刻",物理一致性达 88%,同步推出 iOS 社交应用,10 月 3 日登顶美国 App Store。[6]
Google 发布 Gemini 3,LMArena 1501 Elo 登顶(历史首次破 1500),GPQA Diamond 达 91.9%,SWE-bench 76.2%,Deep Think 模式在 HLE 达 41.0%。[7]
Anthropic 发布旗舰模型,SWE-bench 80.9%(首个突破 80%),Aider Polyglot 89.4%,token 效率较 Sonnet 4.5 提升 76%,API 价格降至输入 $5/M、输出 $25/M。[8]
OpenAI 发布 ChatGPT Health,用户可安全连接医疗记录和健康应用(Apple Health、MyFitnessPal 等),每周超 2.3 亿用户咨询健康问题。医疗机构版同步推出。[23]
智谱 AI 港交所上市,成为"全球大模型第一股",估值 400 亿人民币,累计融资超 83 亿元,2022-2025H1 累计亏损 62 亿元。[10]
MiniMax 港交所上市,首日暴涨 109%,市值突破千亿港元,公开发售获 1837 倍超额认购,385 人团队平均年龄 29 岁,从成立到上市仅 4 年。[22]
Anthropic 发布 Claude for Healthcare,支持连接 HealthEx、Apple Health 等平台,可接入 CMS、ICD-10、PubMed 等医学数据库,与 AstraZeneca、Banner Health 等合作。[24]
Google 发布 MedGemma 1.5,首个支持 3D CT/MRI 扫描解读的开源医疗 AI 模型,MedQA 提升 5%,配套 MedASR 语音模型,推出 $10万 开发者挑战赛。[25]
AI 先驱 Yann LeCun 离开 Meta,创立 AMI Labs 专注"世界模型",融资 €5亿,估值 €30亿,总部巴黎,批评 LLM"根本上受限"。2026年被视为"世界模型元年"。[26]
2025年,大模型市场从"一家独大"走向"多极竞争"。这一年开始时人们还在担忧 OpenAI 的垄断,结束时却发现没有任何一家公司能在所有领域保持领先。
2025年11月,已不存在统治所有领域的"神级模型"。Gemini 擅长日常助手,Claude 主导编程,GPT-5.2 在复杂推理上领先——选择取决于具体需求。
| 模型 | 核心优势 | 关键指标 | 适用场景 |
|---|---|---|---|
| Gemini 3 Pro | 综合推理、多模态理解 | LMArena 1501 Elo(历史首次破1500) GPQA Diamond 91.9% |
日常助手、研究分析 |
| GPT-5.2 | 复杂推理、低幻觉率 | AI Intelligence Index 综合第一 幻觉率降低80% |
复杂推理、专业写作 |
| Claude Opus 4.5 | 代码生成、智能体能力 | SWE-bench 80.9%(首破80%) Aider Polyglot 89.4% |
软件开发、自动化工作流 |
| DeepSeek V3.2 | 性价比、开源生态 | V3基础模型 $558万 / R1仅 $29万 竞赛:IMO/IOI/ICPC金牌 |
企业部署、学术研究 |
2025年开年,中国 AI 初创公司深度求索(DeepSeek)的崛起成为全球科技界最具颠覆性的事件。其发布的 R1 和 V3 系列模型以极低的训练成本实现了媲美顶级模型的性能,彻底打破了"AI 必须烧钱"的行业共识。
DeepSeek V3 基础模型的 GPU 训练成本约为 557.6 万美元,而 R1 推理模型仅需 29.4 万美元(512块 H800 芯片,80小时训练)。美国公司训练类似模型通常需要数千万甚至上亿美元。[1]
通过专家混合架构,在保持模型能力的同时大幅降低推理成本,每次推理只激活部分参数。
创始人梁文锋联合发表的 mHC 框架,在提升可扩展性的同时减少计算和能源需求。
2025年1月发表的"条件记忆"技术,让 AI 快速查找事实和代码模式,无需每次重新计算。
全面开源模型权重,允许用户通过蒸馏训练衍生模型,引发全球云厂商争抢部署。
| 竞赛 | 成绩 | 备注 |
|---|---|---|
| IMO 2025(国际数学奥林匹克) | 金牌 35/42 | 数学推理能力顶尖 |
| IOI 2025(国际信息学奥林匹克) | 金牌 492/600(第10名) | 编程竞赛全球前列 |
| ICPC 世界总决赛 | 第2名(10/12题) | 算法竞赛实力强劲 |
| CMO 2025(中国数学奥林匹克) | 金牌 | 国内顶尖水平 |
DeepSeek 等中国 AI 企业颠覆了西方技术垄断,可能形成"中国创新、美国模仿"的新格局。
—— 彭博社 & 金融时报 分析进入2026年,DeepSeek 继续保持技术输出节奏,为下一代模型铺路:
• mHC 框架:创始人梁文锋联合发表 Manifold-Constrained Hyper-Connections 论文,重新设计基础架构,信号行业将迎来更高效的训练方法
• Engram 技术:发布"条件记忆"技术,解决 GPU 高带宽内存瓶颈,加速 AI 扩展
• V4/R2 预期:业内预计新模型将在春节前后发布,可能整合 R1 推理能力到 V4 基座
分析师认为,DeepSeek 的论文表明公司具备"快速实验与非常规研究思路相结合"的能力,再次绕过算力瓶颈、实现智能飞跃。R2 此前因创始人对性能不满和华为芯片训练挑战而延期,但新的技术突破预示着即将到来的重大发布。
2025年被业界称为"智能体元年"。行业专家形成共识:以对话为核心的"Chat"范式已告终结,AI 竞争转向"能办事"的智能体时代。
从 "AI 回答问题" 到 "AI 执行任务"——智能体能够自主规划、执行、调试,完成复杂的多步骤工作流程。
2025年3月6日,Monica.im 发布全球首款通用 AI 智能体 Manus(拉丁语意为"手"),在 GAIA 基准测试中超越 OpenAI DeepResearch,2025年12月被 Meta 数十亿美元收购。[16] 核心能力包括:
Anthropic 推出的 Computer Use 功能让 AI 能够直接控制计算机和浏览器:
Devin 代表了自主编程智能体的最纯粹形态:
如果问创业者2025年 AI 赛道最大的机会在哪,10个人里至少有5个会回答:多模态。从 Sora 到 GPT-4o,从图像生成到视频创作,多模态能力的进化速度令人惊叹。
| 产品 | 发布时间 | 核心突破 | 商业化 |
|---|---|---|---|
| Sora 2(OpenAI) | 2025年9月30日 | 物理一致性88%、iOS社交应用 | $4/10次生成 |
| Veo 3(Google) | 2025年5月21日 | V2A音画同步、4K输出 | $0.40/秒(API) |
| Wan 2.5(阿里) | 2025年Q3 | 中文场景优化、音频输出 | 企业版 |
Sora 的核心技术是扩散模型与语言模型的结合(Diffusion Transformer),被视为建立"世界模型"的标杆,将 AI 对真实物理世界的建模和预测推向了新高度。
2025年3月,OpenAI 终于上线了延期一年的 GPT-4o 图像生成功能,基于"全模态"能力,用户可以直接用语音或上传照片作为提示词。
GPT-4o 图像生成上线后,一周内 1.3 亿人使用,生成超 7 亿张图像。上线一小时即达 100 万用户,ChatGPT 周活用户 2-4 月间从 4 亿翻倍至 8 亿。[2]
据预测,2025年中国多模态内容市场规模将达到 832.7 亿美元,2018-2025年复合增长率高达 65.02%。主要应用领域包括:
到2025年底,约 85% 的开发者定期使用 AI 工具进行编程——无论是加速日常任务、获取代码建议,还是解答技术问题。AI 编程工具已从"可选配件"变成"必备基础设施"。
| 工具 | 定位 | 核心优势 | 适用场景 |
|---|---|---|---|
| Cursor | IDE 集成 | 流畅的编辑体验、后台智能体模式 | 日常开发、小团队 |
| Claude Code | CLI 命令行 | 深度推理、架构级理解、30+小时自主 | 复杂调试、架构重构 |
| GitHub Copilot | 代码补全 | 广泛集成、企业级支持 | 代码补全、快速原型 |
| Devin | 自主智能体 | 端到端自主、云端沙盒 | 迁移、批量重构 |
许多开发者开始组合使用多个工具:在 Cursor 终端内安装 Claude Code CLI,用 Cursor 处理日常编辑流程,在遇到复杂问题时召唤 Claude 作为"高级工程师"解决难题。
24个月前,AI 在 SWE-Bench 基准测试中完全自主解决 GitHub Issues 的比例为 0%。
2025年Q4,顶级 AI 智能体在 SWE-Bench Verified 测试中达到 50-65% 的自主解决率。
Claude Code 是命令行优先的工具,将你的整个代码库作为它的工作场所。它由 Claude Sonnet 4.5 和 Claude Opus 4 驱动,能够在复杂的多步骤编程工作流中保持 30+ 小时的连贯性。
—— Anthropic 官方文档2026年1月,AI 医疗健康领域迎来历史性时刻:OpenAI、Anthropic、Google 在一周内相继发布医疗 AI 产品,标志着 AI 巨头正式进军万亿级医疗市场。
根据 OpenAI 分析,每周超过 2.3 亿用户在 ChatGPT 上咨询健康和养生问题,每天超过 4000 万用户询问医疗和健康保险问题。这一庞大需求推动了医疗 AI 的加速落地。
| 产品 | 发布时间 | 核心功能 | 数据连接 |
|---|---|---|---|
| ChatGPT Health(OpenAI) | 2026年1月7日 | 健康问答、化验解读、饮食建议 | Apple Health、MyFitnessPal、Peloton 等 |
| Claude for Healthcare(Anthropic) | 2026年1月11日 | 病历总结、FHIR 开发、先验授权 | HealthEx、CMS、ICD-10、PubMed |
| MedGemma 1.5(Google) | 2026年1月13日 | 3D CT/MRI 解读、临床推理 | 开源模型,支持本地部署 |
OpenAI 的 ChatGPT Health 定位为个人健康助手,核心特点包括:
同时,OpenAI 推出面向医疗机构的 ChatGPT for Healthcare,由 GPT-5 驱动,已在 AdventHealth、Boston Children's Hospital、Cedars-Sinai、Stanford Medicine 等机构部署。
Anthropic 的方案更侧重医疗机构和制药企业:
支持 FHIR(快速医疗互操作资源)标准开发,改善医疗系统间的数据交换。
提供可定制的先验授权审核模板,加速保险审批流程。
接入 CMS 覆盖数据库、ICD-10、NPI 注册表、PubMed 等行业标准数据库。
与 AstraZeneca、Sanofi、Banner Health、Flatiron Health、Veeva 等合作。
Google 的 MedGemma 1.5 走开源路线,核心突破:
• 马来西亚卫生部:基于 MedGemma 的 askCPG 系统,帮助医生查询 150+ 临床指南
• 台湾健保署:分析 30,000 份病理报告,辅助外科政策制定
OpenAI 和 Anthropic 均强调,AI 医疗产品可能出错,不能替代专业医疗建议。高风险用例必须由执业医师审核。健康数据不会用于训练模型,用户可随时断开连接。
2025年,AI 领域的资本热度持续高涨。头部公司估值屡创新高,Cloud 100 榜单首次突破 1.1 万亿美元总估值大关,其中 AI 原生企业贡献了 42% 的市值。
| 排名 | 公司 | 估值 | 关键事件 |
|---|---|---|---|
| 1 | 字节跳动 | $3300亿 | AI 业务全面整合 |
| 2 | OpenAI | $3000亿 | 2025年4月完成 $400亿 融资(软银领投)[9] |
| 3 | Anthropic | $1830亿 | F轮 $130亿,估值翻3倍 |
| 4 | xAI | $500亿+ | Grok 4 系列持续迭代 |
| 5 | 智谱 AI | ¥400亿 | 2026年1月8日港股上市,成"全球大模型第一股"[10] |
高估值也频频引发"AI 泡沫"讨论。批评人士指出,当前许多 AI 公司的估值建立在对未来收入的乐观预测之上,实际盈利能力仍待验证。智谱 AI 招股书显示,2022年至2025年上半年累计净亏损达 62 亿元,2024年研发费用 21.95 亿元是当年营收的 7 倍以上。[14]
2025年是 AI 监管落地的关键之年。从欧盟到中国,从国家层面到联合国,全球 AI 治理框架正在加速形成。
全球首部全面监管 AI 的法律,分阶段实施:2025年2月起禁止高风险 AI,2025年8月起 GPAI 规则生效,2026年8月全面适用。[11]
提出到2027年推动形成特色化、全覆盖的行业大模型,推广500个典型应用场景。
明确 AI 发展应遵循的伦理原则和行为准则,涵盖公平公正、隐私保护、安全可控等多个方面。
联合国大会以压倒性票数通过决议,设立人工智能独立国际科学小组(40国专家)和人工智能治理全球对话机制。
明确 AI 生成的文本、图片、音视频等内容需加显式和隐式标识,防止深度伪造滥用。
| 地区 | 核心法规 | 监管重点 | 特点 |
|---|---|---|---|
| 欧盟 | AI Act | 风险分级、高风险应用合规 | 全面性、强制性 |
| 中国 | 伦理规范 + 专项政策 | 内容标识、伦理原则、产业促进 | 发展与规范并重 |
| 美国 | 行政令 + 自愿承诺 | 国家安全、负责任开发 | 企业自律为主 |
| 联合国 | 治理双机制 | 全球风险评估、国际对话 | 协调性、建议性 |
内容标识 数据隐私 算法透明 安全评估 伦理审查
基于2025年的发展轨迹,我们对2026年 AI 领域做出以下趋势预测:
Yann LeCun 创立 AMI Labs、Google DeepMind 的 Genie、World Labs 等推动"世界模型"成为新范式,AI 从预测文本转向理解物理世界。
Anthropic 的 Model Context Protocol 被捐赠给 Linux 基金会,OpenAI、微软、Google 全面采用,成为 AI 智能体连接外部工具的行业标准。
OpenAI、Anthropic、Google 同时进军医疗领域,AI 医疗从辅助诊断扩展到全流程健康管理。
DeepSeek 发布 mHC 新框架论文,V4/R2 模型预计春节前后发布,继续挑战"堆算力"路径依赖。
• IPO 大年:OpenAI(传闻估值 $1万亿)、Anthropic、SpaceX 均计划上市,史上最大科技 IPO 年
• AI 医疗:三巨头竞速,健康管理成为 AI 下一个万亿级市场
• 版权诉讼:作家、记者联合起诉 6 大 AI 公司,版权之战全面升级
• ROI 年:2026年被称为"AI 证明价值之年",企业必须展示真实 ROI
• 估值泡沫:高估值与盈利能力脱节,部分公司面临价值重估
• 监管合规:全球监管趋严,企业合规成本上升
• 能源消耗:大模型训练和推理的能源需求持续增长
• 安全风险:深度伪造、自主武器等安全议题日益突出
2025年,人工智能从"神话"走向"日常",从"对话"走向"行动",从"单极"走向"多极"。这一年,我们见证了中国力量的崛起,见证了智能体时代的开启,也见证了全球治理框架的形成。
站在2026年的起点,AI 的未来充满想象:具身智能何时突破 Demo?多模态 Super App 花落谁家?中美 AI 竞争将如何演变?这些问题的答案,将在接下来的一年逐渐揭晓。
2025年是人工智能从实验室走向大规模应用的关键之年。没有单一的"神级模型"统治一切——这不是缺陷,而是成熟。
—— AI News 研究院[1] 观察者网. DeepSeek首度公开R1模型训练成本仅为29.4万美元. 2025年9月.
[2] GIGAZINE. 130 million people use ChatGPT's new image generation feature to generate over 700 million images in a week. 2025年4月.
[3] 百度百科. Veo 3. 2025年.
[4] OpenAI. Introducing GPT-5. 2025年8月.
[5] 36氪. Anthropic在质疑声中获130亿美元融资,估值达1830亿. 2025年9月.
[6] OpenAI. Sora 2 is here. 2025年9月.
[7] 知乎. Google发布 Gemini 3 Pro【AI 早报 2025-11-19】. 2025年11月.
[8] The Unwind AI. Claude Opus 4.5 Scores 80.9% on SWE-bench. 2026年1月.
[9] 新浪财经. OpenAI完成400亿美元创纪录融资 估值飙至3000亿成全球第三大独角兽. 2025年4月.
[10] 澎湃新闻. 400亿,大模型第一股来了. 2026年1月.
[11] 安全内参. 欧盟《人工智能法案》生效一年主要实施进展概览. 2025年.
[12] 艾媒咨询. 2025年中国AI市场深度分析报告:7470亿规模增长趋势与企业应用指南. 2025年.
[13] Fortune. OpenAI's user base doubles in just to a few weeks to 800 million. 2025年4月.
[14] 36氪. 平均每个月亏3亿!从智谱招股书,我看到了大模型竞争的残酷现实. 2025年12月.
[15] 中科院网信工作网. 我国深度求索发布最新开源模型R1 研发成本远低于行业平均水平. 2025年2月.
[16] AITOP100. Manus智能体爆火背后:Monica.im的Agent突围之路. 2025年3月.
[17] 53AI. OpenAI正式发布Operator,打响2025智能体大战第一枪. 2025年1月.
[18] 量子位. 马斯克"地表最强"Grok 3炸场,竞技场首超1400分. 2025年2月.
[19] 量子位. Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告. 2025年4月.
[20] 36氪. 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕. 2025年4月.
[21] 36氪. Claude 4系列发布,Anthropic首届开发者大会. 2025年5月.
[22] 观察者网. MiniMax上市首日股价翻倍,成全球首个千亿市值AI上市公司. 2026年1月.