吴恩达年终总结：2025年或将被铭记为AI工业时代的黎明

抖音推荐 2025年12月30日 21:05 1 admin

要点提炼：

AI工业时代的黎明：2025年标志着AI从“学术探索”正式迈向“工业化基础设施”时代。AI投资成为驱动美国GDP增长的核心力量，全球年度资本支出突破3000亿美元。

万亿级投入与能源焦虑：科技巨头（如OpenAI、微软、亚马逊）开启“星际之门”等超级数据中心计划，单项投资动辄数千亿美元。电力供应成为硬约束，科技公司开始通过重启核电站（如三里岛）来保障算力需求。

推理模型与智能体化：以OpenAI o1和DeepSeek-R1为代表的推理模型成为主流，AI具备了“多步思考”能力。 “智能体编码（Agentic Coding）”爆发，AI智能体已能独立处理复杂的软件开发任务，编程效率显著提升。

天价薪酬重塑人才市场：顶尖人才身价比肩体育明星，Meta等巨头甚至开出高达3亿美元的四年期薪酬包。

26日，人工智能领域的知名学者吴恩达（Andrew Ng）在其年度信件与发布的《The Batch》特刊中指出，2025年或将被铭记为AI工业时代的黎明。这一年，模型性能通过推理能力达到了新高度，基础设施建设成为推动美国GDP增长的关键力量，而顶尖科技公司为争夺人才展开了前所未有的薪酬战。吴恩达认为，随着技术更紧密地融入日常生活，新的一年将进一步巩固这些变革。

万亿级资本开支与能源挑战

吴恩达表示，2025年，以OpenAI、微软、亚马逊、Meta和Alphabet为首的科技巨头宣布了一系列令人咋舌的基础设施投资计划。据各方披露，每一吉瓦的数据中心容量建设成本约为500亿美元。OpenAI与其合作伙伴宣布了耗资5000亿美元的“Stargate”项目，并计划最终在全球建设20吉瓦的容量。微软在2025年的全球数据中心支出达到800亿美元，并签署了一项为期20年的协议，计划于2028年重启宾夕法尼亚州的三里岛核反应堆，以确保持续的电力供应。

巨额投资也面临现实挑战。贝恩公司（Bain & Co.）估计，要支撑这种规模的建设，到2030年AI年收入需达到2万亿美元，这超过了主要科技巨头2024年的总盈利。此外，电网容量不足已导致硅谷部分数据中心闲置。据《金融时报》报道，出于对债务水平的担忧，Blue Owl Capital于12月中旬退出了为Oracle和OpenAI提供100亿美元数据中心融资的谈判。

天价薪酬重塑人才市场

随着AI从学术兴趣转变为革命性技术，顶尖人才的身价已飙升至职业体育明星的水平。吴恩达表示，Meta在2025年打破了传统的薪酬结构，向来自OpenAI、谷歌和Anthropic的研究人员提供包括现金奖金和巨额股权在内的薪酬包，部分四年期合同价值高达3亿美元。

扎克伯格亲自参与了这场人才争夺战，成功招募了OpenAI的Jason Wei和Hyung Won Chung等关键研究人员。此前与Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最终也加入了Meta。作为回应，OpenAI为新员工提供了更激进的股票期权归属时间表和高达150万美元的留任奖金。

推理模型与智能体编码的普及

吴恩达表示，2025年被视为推理模型广泛应用的元年。始于OpenAI的o1模型和随后的DeepSeek-R1，展示了通过强化学习（RL）微调模型以进行“思维链”推理的能力。这使得模型在生成输出前能进行多步思考，显著提高了在数学、科学和编程任务中的表现。例如，OpenAI o4-mini在结合工具使用后，在一项多模态理解测试中达到了17.7%的准确率。

这一技术进步直接推动了“智能体编码”（Agentic Coding）的爆发。吴恩达表示，到2025年底，Claude Code、谷歌 Gemini CLI和OpenAI Codex等工具已能通过智能体工作流处理复杂的软件开发任务。在SWE-Bench基准测试中，基于最新大模型的编码智能体能够完成超过80%的任务。虽然苹果和Anthropic的研究指出推理模型在某些复杂逻辑上仍存在局限性，且推理过程增加了推理成本（Inference Cost），但这并未阻挡企业利用AI自动生成代码、降低开发成本的趋势。

以下为全文中文翻译，部分有删减：

亲爱的朋友们，

又一年人工智能的飞速发展为每个人——包括刚刚进入该领域的人——创造了前所未有的软件开发机会。事实上，许多公司根本找不到足够的熟练AI人才。每年寒假，我都会花一些时间学习和构建项目，我希望你们也能这样做。这帮助我磨练旧技能、学习新技能，也能帮助你们在科技领域发展职业生涯。

要熟练构建AI系统，我建议你：

学习AI课程
练习构建AI系统
（可选）阅读研究论文

让我分享一下为什么这些都很重要。

我听到一些开发者建议其他人不必担心学习，直接投入构建项目。这是糟糕的建议！除非你已经置身于一个经验丰富的AI开发者社区中，否则在不了解AI基础的情况下就投入构建，意味着你可能会重新发明轮子——或者更可能的是——把轮子重新发明得很糟糕！

例如，在面试求职者时，我遇到过这样的开发者：他们重新发明了标准的RAG文档分块策略，复制了现有的智能体AI评估技术，或者最终写出了混乱的LLM上下文管理代码。如果他们学过几门相关课程，就会更好地理解已经存在的构建模块。他们仍然可以从头重建这些模块，或者甚至发明出比现有解决方案更优秀的东西，但他们本可以避免数周的不必要工作。所以结构化学习很重要！而且，我发现上课真的很有趣。比起看Netflix，我更喜欢观看知识渊博的AI讲师的课程！

同时，仅仅上课是不够的。有许多经验教训只能通过实践获得。学习飞机运作背后的理论对成为飞行员非常重要，但从来没有人仅仅通过上课就学会成为飞行员。在某个时刻，跳进飞行员座位是至关重要的！好消息是，通过学习使用高度智能化的编码工具，构建过程比以往任何时候都要容易。而且了解AI构建模块可能会激发你对要构建什么的新想法。如果我对要做什么项目感到缺乏灵感，我通常会上课或阅读研究论文，这样做一段时间后，我总会产生许多新想法。此外，我发现构建真的很有趣，希望你也会这样认为！

最后，不是每个人都必须这样做，但我发现当今就业市场上许多最强的候选人至少偶尔会阅读研究论文。虽然我发现研究论文比课程更难理解，但它们包含了许多尚未转化为更易理解格式的知识。我把这个优先级排在上课或练习构建之后，但如果你有机会加强阅读论文的能力，我也敦促你这样做。（你也可以观看我之前关于阅读论文建议的旧视频。）我发现上课和构建很有趣，阅读论文可能更像是一种苦差事，但我从阅读论文中获得的洞察力闪光时刻令人愉悦。

祝你有一个美好的寒假和新年快乐。除了学习和构建，我希望你也能与所爱的人共度时光——这同样重要！

爱你的，

吴恩达

2025年顶级AI故事

新时代的黎明

2025年可能会被铭记为AI工业时代的开端。创新将模型性能推向新高度，AI驱动的应用变得不可或缺，顶级公司为熟练从业者展开争夺战，基础设施建设推动了美国国内生产总值增长。与过去的寒假季节一样，本期特刊《The Batch》追溯了过去12个月的主要主题。来年有望巩固这些变化，我们将把这项技术更紧密地编织进日常生活的结构中。

思考模型解决更大的问题

逐步思考。解释你的推理。从答案倒推。2025年初，模型仅在被提示时才执行这些推理策略。现在大多数新的大语言模型将其作为常规操作，在广泛的任务中提高了性能。

发生了什么：去年年底，OpenAI推出了第一个推理或"思考"模型o1，它内置了智能体推理工作流。1月，DeepSeek-R1向世界其他地方展示了如何构建这种能力。结果是：数学和编码性能立即改善，问题回答更准确，机器人更有能力，AI智能体快速进步。

推动故事发展的因素：推理的早期形式随着论文"大语言模型是零样本推理器"而兴起，该论文引入了提示附加语"让我们一步步思考"。作者发现，在提示中手动添加这些词会改善模型的输出。研究人员很快意识到他们可以将这种能力训练到模型中，这样它们就会在没有明确提示的情况下使用这种和其他推理策略。关键是：通过强化学习（RL）进行微调。给预训练的LLM一个产生正确输出的奖励，训练它在生成输出之前"思考"问题。

最初几个推理模型通过RL专门训练来正确解决数学问题、准确回答科学问题和/或生成通过单元测试的代码。这使得o1-preview能够在AIME 2024（竞赛数学问题）上比其非推理前身GPT-4o高出43个百分点，在GPQA Diamond（博士级科学问题）上高出22个百分点，而它完成Codeforces编码问题的水平相对于竞争性人类编码者处于第62百分位，而GPT-4o为第11百分位。
当推理模型学会使用计算器、搜索引擎或bash终端等工具时，性能甚至更好。例如，在对100个领域的多模态理解和技术专业知识的挑战性测试中，带有工具的OpenAI o4-mini达到了17.7%的准确率，比没有工具时高出3个百分点以上。
机器人动作模型已通过RL训练进行推理。例如，奖励ThinkAct达到目标位置，与OpenVLA等非思考模型相比，在机器人任务上产生了大约8%的性能提升。
推理模型还帮助智能体处理困难问题。例如，AlphaEvolve使用Google Gemini反复生成、评估和更改代码，最终为现实世界问题产生更快的算法。类似地，AI Co-Scientist使用Gemini生成科学研究提案，然后审查、排名和改进它们。在其他成果中，它提出了一个假设来回答关于微生物抗生素耐药性的长期问题。人类科学家几乎在同一时间独立提出并验证了相同的假设。

但是：推理模型可能不像它们看起来那么理性。

在一篇有争议的论文中，苹果公司得出结论，推理模型无法解决超出一定复杂程度的谜题，即使给模型提供了解决它们的算法。模型无法应用算法，这对机器和人类推理之间的明显相似性提出了质疑。
Anthropic发现，虽然模型的推理步骤可以帮助解释它如何得出结论，但它们也可能遗漏对结论有贡献的关键信息。例如，在提示中包含一个提示可以引导推理模型产生特定输出，但它们的推理步骤可能无法提及该提示。

现状：推理显著提高了LLM性能。然而，更好的输出是有代价的。启用推理的Gemini 3 Flash在运行Artificial Analysis智能指数的基准测试时使用了1.6亿个token（获得71分），而没有推理的Gemini 3 Flash使用了740万个token（获得的分数低得多，为55分）。此外，生成推理token可能会延迟输出，增加了LLM推理提供商更快服务token的压力。但研究人员正在寻找使过程更高效的方法。Claude Opus 4.5和设置为高推理的GPT-5.1达到相同的智能指数分数，但前者使用4800万个token，而后者使用8100万个。

大型AI公司以巨额薪酬吸引人才

领先的AI公司展开激烈的人才争夺战，以通常与职业体育相关的薪酬水平从竞争对手那里吸引顶尖人才。

发生了什么：7月，Meta启动招聘热潮为新成立的Meta超级智能实验室配备人员，向来自OpenAI、Google、Anthropic和其他顶级AI公司的研究人员提供高达数亿美元的薪酬。这些offer包括大额现金奖金和对离开另一家公司而放弃的股权的补偿。Meta的竞争对手反过来从Meta和彼此那里挖走关键员工，将AI人才的市场价值推高到前所未有的水平。

推动故事发展的因素：Meta通过提供价值高达四年3亿美元的薪酬方案颠覆了传统薪酬结构，其流动性薪酬有时大大超过其他公司多年才能兑现的股票期权。在聘请了Scale AI首席执行官Alexandr Wang及其团队的关键成员后，Meta首席执行官马克·扎克伯格编制了一份愿望清单，《华尔街日报》报道。

扎克伯格亲自登门拜访说服人们跳槽，有时还带着自制的汤。这项努力获得了包括OpenAI的Jason Wei和Hyung Won Chung在内的人才，他们是两位从事推理模型工作的研究人员。
曾与OpenAI前首席技术官Mira Murati共同创立Thinking Machines Lab的Andrew Tulloch最初拒绝了Meta包括价值15亿美元奖金的方案，《华尔街日报》报道。几个月后，他改变了主意并加入了Meta。
Meta聘请了在苹果公司监督AI模型的Ruoming Pang。据彭博社报道，薪酬方案在几年内价值数亿美元。Meta的offer超过了苹果公司除首席执行官外的高层领导者的薪酬方案，苹果公司拒绝还价。
在人员流动中，微软AI首席执行官Mustafa Suleyman从Google挖走了20多名研究人员和工程师，包括工程副总裁Amar Subramanya。
埃隆·马斯克的xAI从Meta聘请了十几名AI研究人员和工程师。马斯克谴责竞争对手的"疯狂"offer，并吹捧他公司的"超级精英制"文化和更大的股权增长潜力。

新闻背后：AI工程师薪资轨迹反映了AI从学术好奇心到革命性技术的演变。

2011年，当Google Brain在吴恩达的指导下启动时，AI人才集中在学术界。随着神经网络进入搜索引擎和AI助手等商业产品，机器学习工程师角色成为标准的企业层级。
2014年，当Google收购DeepMind时，AI薪资显著超过了一般软件工程的薪资。据《纽约时报》估计，DeepMind的人员成本约为每位员工34.5万美元。到2017年，当Google引入transformer架构时，顶级薪酬已上升至50万美元。
大约2023年，随着ChatGPT的兴起，薪酬又一次跃升。根据一份报告，顶级软件工程师的薪酬方案超过70万美元。

现状：随着2026年开始，AI招聘格局发生了很大变化。为了抵御招聘人员，据《华尔街日报》报道，OpenAI提供了比竞争对手更多的股票薪酬，加快了授予新员工的股票期权的兑现时间表，并发放了高达150万美元的留任奖金。尽管2025年有关AI泡沫的讨论，但对于计划花费数百亿美元建设AI数据中心的公司来说，高薪是合理的：如果你在硬件上花费这么多，为什么不在薪资上花费一小部分支出呢？

顶级AI公司宣布了数据中心建设计划，预计在未来几年将耗资数万亿美元和消耗数千兆瓦的电力。

事件经过：AI行业今年的资本支出就超过了3000亿美元，其中大部分用于建设新的数据中心来处理AI任务。这只是初步预算，因为各公司制定了雄心勃勃的计划，要建造规模相当于小城镇、能源需求相当于中等城市的设施。咨询公司麦肯锡预测，到2030年，为满足推理和训练需求而建设足够处理能力的竞赛可能耗资5.2万亿美元。

推动因素：顶级AI公司在全球范围内宣布了一系列数据中心项目。每千兆瓦的数据中心容量建设成本约为500亿美元。

1月份，OpenAI启动了"星门"项目，这是一个价值5000亿美元的项目，合作伙伴包括甲骨文、软银和阿联酋投资公司MGX。该公司最终宣布计划在全球建设20千兆瓦的数据中心容量，并预测需求可能高达这一数字的5倍。OpenAI首席执行官山姆·奥特曼表示，他希望最终能够每周增加1千兆瓦的容量。
Meta在2025年在基础设施项目上花费了约720亿美元，主要在美国，高管们表示这一数字在2026年将大幅上升。该公司的Hyperion项目包括在路易斯安那州农村地区建设的一个价值270亿美元、5千兆瓦的数据中心。该项目的融资协议将使资产和债务不计入Meta的账面。
微软在2025年在全球数据中心项目上花费了800亿美元，包括威斯康星州和亚特兰大的设施，这些设施将通过专用光纤网络连接，作为一个庞大的超级计算机运行。为了供电，该公司签署了一项为期20年的协议，重启宾夕法尼亚州三里岛核反应堆，该反应堆将从2028年开始提供835兆瓦电力。该公司还承诺将其欧洲云和AI容量扩展到欧洲各地的200个数据中心。
亚马逊预计2025年在基础设施上花费1250亿美元，2026年会更多。其价值110亿美元的"雨神"项目是印第安纳州的一个2.2千兆瓦数据中心，运行50万颗亚马逊Trainium 2芯片。此外，亚马逊计划花费约140亿美元扩建澳大利亚的数据中心，并在2025年至2029年间在德国投资约210亿美元。
Alphabet预计2025年在基础设施上的支出将达到930亿美元，高于此前预测的750亿美元。该公司宣布了一个400亿美元的项目，将在2027年前在德克萨斯州增加3个数据中心。它还承诺在印度投资150亿美元，宣布在德国投资约60亿美元，并在澳大利亚、马来西亚和乌拉圭推出新项目或扩建项目。

但是：美国经济和基础设施能否支撑如此巨大的投资？有理由对此存疑。

根据贝恩公司顾问的说法，数据中心建设的费用到2030年将需要每年约2万亿美元的AI收入。这将超过亚马逊、苹果、Alphabet、微软、Meta和英伟达2024年收益的总和。
现有电网可能不足以为这些数据中心供电。据彭博社报道，硅谷的两个设施处于闲置状态，因为当地公用事业公司没有能力将它们接入电网。
12月中旬，据《金融时报》报道，一直在洽谈为甲骨文和OpenAI提供100亿美元数据中心融资的蓝猫头鹰资本退出了这笔交易。报道称，这是出于对甲骨文在数据中心建设中不断增长的债务的担忧。蓝猫头鹰继续为其他甲骨文-OpenAI数据中心项目提供融资。

现状：尽管存在对AI泡沫的担忧，但基础设施建设热潮正在疲软的经济中创造真实的就业机会和销售额。哈佛大学经济学家杰森·弗曼表示，2025年上半年，数据中心和AI投资几乎占美国国内生产总值增长的全部。在这个阶段，有证据支持这样的观点：2025年拉开了一个新工业时代的序幕。

智能体编写代码更快、更便宜

编码应用程序从自动填充式代码补全发展到能够管理广泛软件开发任务的智能体系统。

事件经过：编码成为智能体工作流中最具直接商业价值的应用。Claude Code、Google Gemini CLI、OpenAI Codex等应用将编码智能体变成了大型AI公司最激烈的竞争战场之一。较小的竞争对手开发了自己的智能体模型以保持竞争力。

推动因素：当开创性的智能体代码生成器Devin在2024年推出时，它将SWE-Bench编码挑战基准测试的技术水平从1.96%提高到13.86%。到2025年，使用最新大型语言模型的编码智能体通常能完成超过80%的相同任务。开发人员采用了越来越复杂的智能体框架，使模型能够与智能体规划器和批评者协作，使用网页搜索或终端仿真等工具，并操作整个代码库。

当推理模型在2024年底问世时，它们立即提升了编码能力并降低了成本，因为推理使智能体能够规划由成本较低的模型完成的任务。可变推理预算的加入使智能体更容易使用单一模型，将更多令牌用于规划，更少令牌用于简单编辑。到2025年底，Gemini 3 Pro、Claude Opus 4.5和GPT-5.2成为编码和智能体工作流的顶级模型。
开放权重模型紧随其后。Z.ai GLM-4.5和Moonshot Kimi K2成为开放权重的热门选择，使自动化编码初创公司能够大幅削减成本。7月发布的Qwen3-Coder提供了一个庞大的4800亿参数模型，使用超过5万亿个代码令牌进行训练，性能几乎与Claude Sonnet 4相当。
Anthropic围绕Claude构建了一个智能体框架，创建了一个应用程序：Claude Code。2月推出的Claude Code立即大受欢迎，并为智能体编码系统应该做什么设定了期望。OpenAI推出了基于其GPT-5系列编码专用版本的Codex应用程序作为回应。Claude Code最初在本地运行，而Codex应用在浏览器中运行，帮助普及了在云端运行的编码智能体。到年底，这些智能体能够使用多个子智能体管理长期运行的问题——通常是一个初始化器来启动任务和跟踪进度，以及各种编码智能体来完成不同的任务——每个都有自己的上下文窗口。
模型制造商和集成开发环境（IDE）开发者之间的拉锯战导致流行的IDE提供商，如Anysphere（Cursor）和Cognition AI（Windsurf）构建自己的模型。相反，谷歌构建了自己的IDE Antigravity，于11月首次亮相。

背景：智能体系统在流行的SWE-Bench编码基准测试上稳步提升技术水平，研究人员寻找替代方法来评估其性能。

这些努力催生了SWE-Bench Verified、SWE-Bench Pro、LiveBench、Terminal-Bench、????-Bench、CodeClash等基准测试。由于不同的供应商信任（或挑选）不同的基准测试，评估代理的性能变得更加困难。为特定任务选择合适的代理仍然是一个挑战。

然而：在2025年初，大多数观察者一致认为，代理擅长生成常规代码、文档和单元测试，但经验丰富的人类工程师和产品经理在更高层次的战略问题上表现更好。到年底，各公司报告称已实现高级任务的自动化。微软、谷歌、亚马逊和Anthropic表示，它们自己生成的代码数量正在不断增加。

现状：在短时间内，代理编码将氛围编程(vibe-coding)从令人困惑的流行语推向了新兴产业。像Loveable、Replit和Vercel这样的初创公司使几乎没有或完全没有编码经验的用户能够从头开始构建网络应用程序。虽然一些观察者担心AI会取代初级开发人员，但事实证明，擅长使用AI的开发人员能够更好、更快地构建应用程序原型。很快，AI辅助编码可能会被简单地视为编码，就像拼写检查和自动完成是写作的一部分一样。

本文来自华尔街见闻，欢迎下载APP查看更多