2025年全球人工智能发展年度盘点

01

年度概览：AI 变革之年

2025年是人工智能发展史上具有里程碑意义的一年。这一年，我们见证了大模型从追求参数规模转向追求效率与智能，见证了AI 从对话助手进化为行动执行者，也见证了中国 AI 力量对全球格局的深刻重塑。

2025年度关键词

DeepSeek 震撼智能体元年多模态融合 AI 编程革命监管落地

如果用一句话总结2025年的 AI 发展，那就是："没有单一的'神级模型'统治一切，最佳选择取决于你的具体目标。" 这是行业从狂热走向成熟的标志。

年度重大事件时间线

🔥 重大事件 ⭐ 重要事件一般事件

2025年1月20日

DeepSeek-R1 发布，震动全球

深度求索发布 R1 推理模型，训练成本仅 29.4 万美元（V3 基础模型约 558 万美元），媲美 GPT-4 和 o1。1月27日登顶美国 App Store，引发英伟达股价暴跌 18%，彻底打破"堆算力"路径依赖。^[1]

2025年1月23日

OpenAI Operator 发布

OpenAI 发布首款 AI 智能体 Operator，能自主操作浏览器完成购物、订餐等任务，打响 2025 智能体大战第一枪。^[17]

2025年2月18日

xAI Grok 3 发布

马斯克发布"地表最强 AI"Grok 3，使用 10 万块 H100 GPU（Colossus 超算）训练，AIME 数学竞赛得分 93.3%，LMArena 首次突破 1400 分。^[18]

2025年3月6日

Manus 通用 AI 智能体发布

Monica.im 发布全球首款通用 AI 智能体 Manus，GAIA 基准测试超越 OpenAI DeepResearch，被称为"AI Agent 的 ChatGPT 时刻"，12月被 Meta 数十亿美元收购。^[16]

2025年3月25日

GPT-4o 图像生成功能上线

OpenAI 多模态图像生成功能上线，一周内 1.3 亿用户使用，生成超 7 亿张图像，上线一小时即达 100 万用户，吉卜力风格火爆全网，ChatGPT 周活 2-4 月从 4 亿翻倍至 8 亿。^[2]

2025年4月5日

Meta Llama 4 发布（争议）

Meta 发布 Llama 4 系列，但 36 小时后差评如潮，被指控 benchmark 作弊刷榜。Yann LeCun 后承认"结果被捏造"，扎克伯格将整个 GenAI 团队边缘化，多名高管离职。^[19]

2025年4月16日

OpenAI o3 和 o4-mini 发布

OpenAI 发布 o3 推理模型（o1 继任者）和 o4-mini，首次实现推理模型全工具链调用（网页搜索、Python、图像生成），o4-mini 在 AIME 2025 达到 99.5% pass@1。^[27]

2025年4月29日

阿里 Qwen3 系列发布

阿里发布 Qwen3 系列开源模型，支持 119 种语言，预训练数据达 36 万亿 token，采用"快思考+慢思考"混合推理架构，推理能耗降低 60%。^[20]

2025年5月21日

Google Veo 3 视频生成模型发布

Google I/O 发布 Veo 3，首次实现音画同步的 AI 视频生成，支持 4K 分辨率，V2A 技术自动生成匹配音轨。^[3]

2025年5月22日

Claude 4 系列发布

Anthropic 首届开发者大会发布 Claude Opus 4 和 Sonnet 4，Opus 4 被称为"世界最好的代码模型"，Sonnet 4 编码准确性较前代提升 16%（SWE-Bench 72.7%）。^[21]

2025年6月10日

OpenAI o3-pro 发布

OpenAI 发布 o3-pro，自称"最可靠的 AI 模型"，专为需要深度思考的复杂问题设计，响应时间 2-3 分钟。AIME 2024 超越 Gemini 2.5 Pro，GPQA Diamond 超越 Claude 4 Opus。^[28]

2025年8月8日

GPT-5 正式发布

OpenAI 发布 GPT-5，融合 GPT 与 o 系列推理能力，引入智能路由系统，包含 GPT-5、mini、nano 三个版本，深度思考模式下幻觉率较 o3 降低 80%，微软同步宣布全面接入。^[4]

2025年8月26日

联合国设立 AI 治理双机制

联合国大会通过决议，设立人工智能独立国际科学小组（40 国专家）和全球对话机制，标志全球 AI 治理框架形成。

2025年9月

Anthropic 估值达 1830 亿美元

完成 130 亿美元 F 轮融资（ICONIQ 领投），估值较 3 月翻 3 倍，年化收入超 50 亿美元，成为科技行业第二大私募融资。^[5]

2025年9月30日

Sora 2 发布并推出独立应用

OpenAI 发布 Sora 2，被称为视频领域的"GPT-3.5 时刻"，物理一致性达 88%，同步推出 iOS 社交应用，10 月 3 日登顶美国 App Store。^[6]

2025年11月19日

Google Gemini 3 Pro 发布

Google 发布 Gemini 3，LMArena 1501 Elo 登顶（历史首次破 1500），GPQA Diamond 达 91.9%，SWE-bench 76.2%，Deep Think 模式在 HLE 达 41.0%。^[7]

2025年11月24日

Claude Opus 4.5 发布

Anthropic 发布旗舰模型，SWE-bench 80.9%（首个突破 80%），Aider Polyglot 89.4%，token 效率较 Sonnet 4.5 提升 76%，API 价格降至输入 $5/M、输出 $25/M。^[8]

2026年1月7日

OpenAI ChatGPT Health 发布

OpenAI 发布 ChatGPT Health，用户可安全连接医疗记录和健康应用（Apple Health、MyFitnessPal 等），每周超 2.3 亿用户咨询健康问题。医疗机构版同步推出。^[23]

2026年1月8日

智谱 AI 港股上市

智谱 AI 港交所上市，成为"全球大模型第一股"，估值 400 亿人民币，累计融资超 83 亿元，2022-2025H1 累计亏损 62 亿元。^[10]

2026年1月9日

MiniMax 港股上市

MiniMax 港交所上市，首日暴涨 109%，市值突破千亿港元，公开发售获 1837 倍超额认购，385 人团队平均年龄 29 岁，从成立到上市仅 4 年。^[22]

2026年1月11日

Anthropic Claude for Healthcare 发布

Anthropic 发布 Claude for Healthcare，支持连接 HealthEx、Apple Health 等平台，可接入 CMS、ICD-10、PubMed 等医学数据库，与 AstraZeneca、Banner Health 等合作。^[24]

2026年1月13日

Google MedGemma 1.5 发布

Google 发布 MedGemma 1.5，首个支持 3D CT/MRI 扫描解读的开源医疗 AI 模型，MedQA 提升 5%，配套 MedASR 语音模型，推出 $10万开发者挑战赛。^[25]

2026年1月22日

Yann LeCun 离开 Meta，创立 AMI Labs

AI 先驱 Yann LeCun 离开 Meta，创立 AMI Labs 专注"世界模型"，融资 €5亿，估值 €30亿，总部巴黎，批评 LLM"根本上受限"。2026年被视为"世界模型元年"。^[26]

02

大模型格局：多极化竞争时代

2025年，大模型市场从"一家独大"走向"多极竞争"。这一年开始时人们还在担忧 OpenAI 的垄断，结束时却发现没有任何一家公司能在所有领域保持领先。

核心观点

2025年11月，已不存在统治所有领域的"神级模型"。Gemini 擅长日常助手，Claude 主导编程，GPT-5.2 在复杂推理上领先——选择取决于具体需求。

头部模型能力对比（2025年末）

模型	核心优势	关键指标	适用场景
Gemini 3 Pro	综合推理、多模态理解	LMArena 1501 Elo（历史首次破1500） GPQA Diamond 91.9%	日常助手、研究分析
GPT-5.2	复杂推理、低幻觉率	AI Intelligence Index 综合第一幻觉率降低80%	复杂推理、专业写作
Claude Opus 4.5	代码生成、智能体能力	SWE-bench 80.9%（首破80%） Aider Polyglot 89.4%	软件开发、自动化工作流
DeepSeek V3.2	性价比、开源生态	V3基础模型 $558万 / R1仅 $29万竞赛：IMO/IOI/ICPC金牌	企业部署、学术研究

模型能力雷达图

G

Google Gemini 3

综合能力最强

推理能力 95%

代码生成 82%

多模态理解 93%

C

Claude Opus 4.5

编程能力最强

推理能力 88%

代码生成 97%

智能体能力 95%

O

GPT-5.2

复杂推理最强

推理能力 96%

代码生成 85%

准确性 94%

D

DeepSeek V3.2

性价比最强

推理能力 89%

代码生成 91%

成本效率 98%

03

DeepSeek 冲击波：颠覆性创新

2025年开年，中国 AI 初创公司深度求索（DeepSeek）的崛起成为全球科技界最具颠覆性的事件。其发布的 R1 和 V3 系列模型以极低的训练成本实现了媲美顶级模型的性能，彻底打破了"AI 必须烧钱"的行业共识。

关键数据：颠覆性的成本革命

DeepSeek V3 基础模型的 GPU 训练成本约为 557.6 万美元，而 R1 推理模型仅需 29.4 万美元（512块 H800 芯片，80小时训练）。美国公司训练类似模型通常需要数千万甚至上亿美元。^[1]

DeepSeek 技术创新亮点

MoE

Mixture of Experts 架构

高效稀疏计算

通过专家混合架构，在保持模型能力的同时大幅降低推理成本，每次推理只激活部分参数。

mHC

Manifold-Constrained 框架

训练效率突破

创始人梁文锋联合发表的 mHC 框架，在提升可扩展性的同时减少计算和能源需求。

E

Engram 记忆增强

知识检索优化

2025年1月发表的"条件记忆"技术，让 AI 快速查找事实和代码模式，无需每次重新计算。

OS

开源策略

生态颠覆

全面开源模型权重，允许用户通过蒸馏训练衍生模型，引发全球云厂商争抢部署。

DeepSeek V3.2 竞赛成绩单

竞赛	成绩	备注
IMO 2025（国际数学奥林匹克）	金牌 35/42	数学推理能力顶尖
IOI 2025（国际信息学奥林匹克）	金牌 492/600（第10名）	编程竞赛全球前列
ICPC 世界总决赛	第2名（10/12题）	算法竞赛实力强劲
CMO 2025（中国数学奥林匹克）	金牌	国内顶尖水平

DeepSeek 等中国 AI 企业颠覆了西方技术垄断，可能形成"中国创新、美国模仿"的新格局。

—— 彭博社 & 金融时报分析

2026年最新动态：V4/R2 蓄势待发

进入2026年，DeepSeek 继续保持技术输出节奏，为下一代模型铺路：

2026年1月研究进展

• mHC 框架：创始人梁文锋联合发表 Manifold-Constrained Hyper-Connections 论文，重新设计基础架构，信号行业将迎来更高效的训练方法
• Engram 技术：发布"条件记忆"技术，解决 GPU 高带宽内存瓶颈，加速 AI 扩展
• V4/R2 预期：业内预计新模型将在春节前后发布，可能整合 R1 推理能力到 V4 基座

分析师认为，DeepSeek 的论文表明公司具备"快速实验与非常规研究思路相结合"的能力，再次绕过算力瓶颈、实现智能飞跃。R2 此前因创始人对性能不满和华为芯片训练挑战而延期，但新的技术突破预示着即将到来的重大发布。

04

AI 智能体：从对话到行动

2025年被业界称为"智能体元年"。行业专家形成共识：以对话为核心的"Chat"范式已告终结，AI 竞争转向"能办事"的智能体时代。

范式转变

从 "AI 回答问题" 到 "AI 执行任务"——智能体能够自主规划、执行、调试，完成复杂的多步骤工作流程。

代表性智能体产品

Manus（Monica.im）—— 通用 AI 智能体

2025年3月6日，Monica.im 发布全球首款通用 AI 智能体 Manus（拉丁语意为"手"），在 GAIA 基准测试中超越 OpenAI DeepResearch，2025年12月被 Meta 数十亿美元收购。^[16] 核心能力包括：

自主任务执行：无需持续人工干预，自主完成复杂任务
动态任务拆解：将复杂目标分解为可执行的子任务
多模态交互：支持文本、语音、图像等多种输入方式
跨平台执行：可在不同软件和服务间协调工作

Claude Computer Use —— 计算机操作智能体

Anthropic 推出的 Computer Use 功能让 AI 能够直接控制计算机和浏览器：

导航网站、填写表单、提取信息
完成需要多步骤操作的复杂任务
处理以往需要人工注意力的自动化工作流

Devin（Cognition Labs）—— 自主编程智能体

Devin 代表了自主编程智能体的最纯粹形态：

在独立的云端沙盒中规划、编写、测试、调试和部署代码
拥有自己的 shell、代码编辑器和浏览器
价格从发布时的 $500/月降至 $20/月
最适合定义明确的重复性任务：迁移、批量重构、代码库清理

50-65%

AI 自主解决 GitHub Issues
（SWE-Bench，24个月前为0%）

30+小时

Claude 自主编程
持续工作时长

$20/月

Devin 订阅价格
（较发布时降 96%）

85%

开发者使用 AI 工具
（2025年末）

05

多模态突破：视觉与视频革命

如果问创业者2025年 AI 赛道最大的机会在哪，10个人里至少有5个会回答：多模态。从 Sora 到 GPT-4o，从图像生成到视频创作，多模态能力的进化速度令人惊叹。

视频生成：Sora 与 Veo 的较量

产品	发布时间	核心突破	商业化
Sora 2（OpenAI）	2025年9月30日	物理一致性88%、iOS社交应用	$4/10次生成
Veo 3（Google）	2025年5月21日	V2A音画同步、4K输出	$0.40/秒（API）
Wan 2.5（阿里）	2025年Q3	中文场景优化、音频输出	企业版

技术突破：Diffusion Transformer

Sora 的核心技术是扩散模型与语言模型的结合（Diffusion Transformer），被视为建立"世界模型"的标杆，将 AI 对真实物理世界的建模和预测推向了新高度。

图像生成：GPT-4o 的爆发

2025年3月，OpenAI 终于上线了延期一年的 GPT-4o 图像生成功能，基于"全模态"能力，用户可以直接用语音或上传照片作为提示词。

史诗级增长

GPT-4o 图像生成上线后，一周内 1.3 亿人使用，生成超 7 亿张图像。上线一小时即达 100 万用户，ChatGPT 周活用户 2-4 月间从 4 亿翻倍至 8 亿。^[2]

多模态市场规模预测

据预测，2025年中国多模态内容市场规模将达到 832.7 亿美元，2018-2025年复合增长率高达 65.02%。主要应用领域包括：

商业定制

广告、营销内容生成

医疗健康

医学影像分析

游戏娱乐

资产生成、NPC对话

影视教育

视频制作、课件生成

06

AI 编程工具：开发者生态重塑

到2025年底，约 85% 的开发者定期使用 AI 工具进行编程——无论是加速日常任务、获取代码建议，还是解答技术问题。AI 编程工具已从"可选配件"变成"必备基础设施"。

主流 AI 编程工具对比

工具	定位	核心优势	适用场景
Cursor	IDE 集成	流畅的编辑体验、后台智能体模式	日常开发、小团队
Claude Code	CLI 命令行	深度推理、架构级理解、30+小时自主	复杂调试、架构重构
GitHub Copilot	代码补全	广泛集成、企业级支持	代码补全、快速原型
Devin	自主智能体	端到端自主、云端沙盒	迁移、批量重构

最佳实践：组合使用

许多开发者开始组合使用多个工具：在 Cursor 终端内安装 Claude Code CLI，用 Cursor 处理日常编辑流程，在遇到复杂问题时召唤 Claude 作为"高级工程师"解决难题。

AI 编程能力跃升

0%

2023年 SWE-Bench

AI 自主解决 GitHub Issues

24个月前，AI 在 SWE-Bench 基准测试中完全自主解决 GitHub Issues 的比例为 0%。

65%

2025年 SWE-Bench

AI 自主解决 GitHub Issues

2025年Q4，顶级 AI 智能体在 SWE-Bench Verified 测试中达到 50-65% 的自主解决率。

Claude Code 是命令行优先的工具，将你的整个代码库作为它的工作场所。它由 Claude Sonnet 4.5 和 Claude Opus 4 驱动，能够在复杂的多步骤编程工作流中保持 30+ 小时的连贯性。

—— Anthropic 官方文档

07

医疗健康 AI：三巨头竞速

2026年1月，AI 医疗健康领域迎来历史性时刻：OpenAI、Anthropic、Google 在一周内相继发布医疗 AI 产品，标志着 AI 巨头正式进军万亿级医疗市场。

关键数据

根据 OpenAI 分析，每周超过 2.3 亿用户在 ChatGPT 上咨询健康和养生问题，每天超过 4000 万用户询问医疗和健康保险问题。这一庞大需求推动了医疗 AI 的加速落地。

三大产品对比

产品	发布时间	核心功能	数据连接
ChatGPT Health（OpenAI）	2026年1月7日	健康问答、化验解读、饮食建议	Apple Health、MyFitnessPal、Peloton 等
Claude for Healthcare（Anthropic）	2026年1月11日	病历总结、FHIR 开发、先验授权	HealthEx、CMS、ICD-10、PubMed
MedGemma 1.5（Google）	2026年1月13日	3D CT/MRI 解读、临床推理	开源模型，支持本地部署

ChatGPT Health：消费者健康入口

OpenAI 的 ChatGPT Health 定位为个人健康助手，核心特点包括：

多源数据整合：连接 Apple Health、Function、MyFitnessPal、Peloton 等应用
个性化建议：基于用户健康数据提供定制化的营养建议、运动计划
化验解读：用通俗语言解释检验报告，检测健康指标趋势
隐私保护：健康对话不用于模型训练，专用加密和隔离

同时，OpenAI 推出面向医疗机构的 ChatGPT for Healthcare，由 GPT-5 驱动，已在 AdventHealth、Boston Children's Hospital、Cedars-Sinai、Stanford Medicine 等机构部署。

Claude for Healthcare：企业级医疗方案

Anthropic 的方案更侧重医疗机构和制药企业：

FHIR

FHIR 开发技能

医疗数据互操作

支持 FHIR（快速医疗互操作资源）标准开发，改善医疗系统间的数据交换。

PA

先验授权审核

流程自动化

提供可定制的先验授权审核模板，加速保险审批流程。

DB

医学数据库连接

权威知识源

接入 CMS 覆盖数据库、ICD-10、NPI 注册表、PubMed 等行业标准数据库。

企

企业合作伙伴

头部机构背书

与 AstraZeneca、Sanofi、Banner Health、Flatiron Health、Veeva 等合作。

MedGemma 1.5：开源医疗 AI 基座

Google 的 MedGemma 1.5 走开源路线，核心突破：

3D 医学影像：首个支持 CT、MRI 三维扫描解读的开源模型
病理切片分析：支持全切片病理图像（WSI）多区域同时解读
性能提升：MedQA 提升 5%（69% vs 64%），EHR 问答提升 22%（90% vs 68%）
配套语音模型：MedASR 支持医学语音转文本

实际应用案例

• 马来西亚卫生部：基于 MedGemma 的 askCPG 系统，帮助医生查询 150+ 临床指南
• 台湾健保署：分析 30,000 份病理报告，辅助外科政策制定

重要提醒

OpenAI 和 Anthropic 均强调，AI 医疗产品可能出错，不能替代专业医疗建议。高风险用例必须由执业医师审核。健康数据不会用于训练模型，用户可随时断开连接。

08

融资与估值：资本狂飙

2025年，AI 领域的资本热度持续高涨。头部公司估值屡创新高，Cloud 100 榜单首次突破 1.1 万亿美元总估值大关，其中 AI 原生企业贡献了 42% 的市值。

全球 AI 独角兽 TOP 5

排名	公司	估值	关键事件
1	字节跳动	$3300亿	AI 业务全面整合
2	OpenAI	$3000亿	2025年4月完成 $400亿融资（软银领投）^[9]
3	Anthropic	$1830亿	F轮 $130亿，估值翻3倍
4	xAI	$500亿+	Grok 4 系列持续迭代
5	智谱 AI	¥400亿	2026年1月8日港股上市，成"全球大模型第一股"^[10]

中国大模型"六小虎"融资情况

智

智谱 AI

清华系 · 冲刺上市

¥400亿

估值

5轮

2025年融资次数

月

月之暗面

Kimi · 用户增长最快

$43亿

估值

170%

付费用户月增速

M

MiniMax

港交所上市

HK$1000亿

市值（上市首日涨109%）

HK$55.4亿

募资总额

深

DeepSeek

深度求索 · 技术颠覆者

未公开

估值（幻方量化孵化）

全球热议

影响力

2025年中国 AI 投融资概览

139笔

超亿元融资（1-10月）

600亿+

总融资金额（人民币）

73笔

具身智能领域融资

257亿

具身智能融资总额

泡沫警示

高估值也频频引发"AI 泡沫"讨论。批评人士指出，当前许多 AI 公司的估值建立在对未来收入的乐观预测之上，实际盈利能力仍待验证。智谱 AI 招股书显示，2022年至2025年上半年累计净亏损达 62 亿元，2024年研发费用 21.95 亿元是当年营收的 7 倍以上。^[14]

09

政策监管：全球治理框架

2025年是 AI 监管落地的关键之年。从欧盟到中国，从国家层面到联合国，全球 AI 治理框架正在加速形成。

重大政策事件时间线

2024年8月1日生效

欧盟《人工智能法案》正式生效

全球首部全面监管 AI 的法律，分阶段实施：2025年2月起禁止高风险 AI，2025年8月起 GPAI 规则生效，2026年8月全面适用。^[11]

2025年1月

工信部等八部门印发《人工智能+制造》专项行动意见

提出到2027年推动形成特色化、全覆盖的行业大模型，推广500个典型应用场景。

2025年4月

中国《人工智能伦理规范》发布

明确 AI 发展应遵循的伦理原则和行为准则，涵盖公平公正、隐私保护、安全可控等多个方面。

2025年8月26日

联合国设立 AI 治理双机制

联合国大会以压倒性票数通过决议，设立人工智能独立国际科学小组（40国专家）和人工智能治理全球对话机制。

2025年9月1日

《人工智能生成合成内容标识办法》施行

明确 AI 生成的文本、图片、音视频等内容需加显式和隐式标识，防止深度伪造滥用。

主要监管框架对比

地区	核心法规	监管重点	特点
欧盟	AI Act	风险分级、高风险应用合规	全面性、强制性
中国	伦理规范 + 专项政策	内容标识、伦理原则、产业促进	发展与规范并重
美国	行政令 + 自愿承诺	国家安全、负责任开发	企业自律为主
联合国	治理双机制	全球风险评估、国际对话	协调性、建议性

企业合规要点

内容标识数据隐私算法透明安全评估伦理审查

10

2026年展望与趋势预测

基于2025年的发展轨迹，我们对2026年 AI 领域做出以下趋势预测：

技术趋势

1

世界模型元年

从语言到物理

Yann LeCun 创立 AMI Labs、Google DeepMind 的 Genie、World Labs 等推动"世界模型"成为新范式，AI 从预测文本转向理解物理世界。

2

MCP 成为标准

AI 工具连接协议

Anthropic 的 Model Context Protocol 被捐赠给 Linux 基金会，OpenAI、微软、Google 全面采用，成为 AI 智能体连接外部工具的行业标准。

3

医疗 AI 爆发

三巨头同步入场

OpenAI、Anthropic、Google 同时进军医疗领域，AI 医疗从辅助诊断扩展到全流程健康管理。

4

DeepSeek V4/R2

效率革命延续

DeepSeek 发布 mHC 新框架论文，V4/R2 模型预计春节前后发布，继续挑战"堆算力"路径依赖。

产业趋势

2026年关键预测

• IPO 大年：OpenAI（传闻估值 $1万亿）、Anthropic、SpaceX 均计划上市，史上最大科技 IPO 年
• AI 医疗：三巨头竞速，健康管理成为 AI 下一个万亿级市场
• 版权诉讼：作家、记者联合起诉 6 大 AI 公司，版权之战全面升级
• ROI 年：2026年被称为"AI 证明价值之年"，企业必须展示真实 ROI