来源:腾讯研究院

后台回复“十大趋势”,即可下载PDF版报告全文
我们曾习惯于将AI视为一个无所不知的“工具箱”。当我们想知道答案,会打开搜索框;当我们想完成任务,会发出一连串精准的指令。它强大、高效,却也总是隔着一块冷冰冰的屏幕,静静地等待着我们的下一个问题。它认识我们输入的文字,却不理解我们输入时的心情。
但现在,这一切正在悄然改变。
想象一下,那个曾经只能理解命令的系统,如今开始听懂你语气中的疲惫。在你深夜加班后,它不再是机械地播报日程,而是用一句温暖的声音提醒你:“看起来你很累了,要不要来点舒缓的音乐,帮你放松一下?”它第一次真正拥有了“五感”,能像我们一样,同时看到视频里人物的表情、听懂他的语调、理解他话语的深意,并作出有温度的回应。这,就是AI正在经历的深刻跃迁。
这场跃迁的核心,是AI的角色正在从“工具”向“伙伴”演进。在工作场景中,不断融入工作流,成为一名高效的“数字员工”。当它走进生活,不仅我们记忆的延伸、灵感的火花、更可能成为一位真正懂你的“人生合伙人”。它了解你的生活习惯,记得你对咖啡的偏好,甚至能从你杂乱无章的语音笔记中,为你整理出一份条理清晰的行动计划。它不再需要你“手把手”地教,而是通过理解你的世界,与你一同成长。
而这,还不是终点。
这位伙伴,正准备走出屏幕,进入我们生活的物理世界。那个曾经只存在于比特世界的“数字大脑”,正长出“手-脚”,成为能在现实世界中行动的“代理人”。它将化身为更灵巧的机器人,在产线上完成超越人类精度的操作;它将融入自动驾驶系统,以近乎全局的视野感知和预测路况;它甚至能成为养老院里那位细心的看护,在老人需要时,稳稳地递上一杯水。AI正从“会聊天”进化到“懂世界”,再到“能行动”。
这不再是遥远的科幻想象,而是正在发生的未来。我们正共同站在一个伟大时代的开端,见证AI从高效的工具,蜕变为与我们协同思考、共同创造的共生伙伴。这篇报告所要描绘的,正是这一演化新篇章的宏伟蓝图。它关乎技术,但更关乎我们每一个人——关乎我们将如何与下一代AI建立信任、展开合作,共同书写一个更富想象力、也更具温度的未来。

今天,在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合发布了《共生伙伴:2025人工智能十大趋势》报告。基于腾讯研究院多位研究员对全球技术、产业趋势的长期观察,通过10个关键趋势勾勒出2025人工智能发展的三大主题基础模型的跃迁、智能行动者的崛起以及AI走向物理世界,深入剖析了AI从“智能工具”迈向“共生伙伴”的关键跃迁。

推荐序
从智能工具到共生伙伴: AI演化的新篇章
司晓腾讯副总裁 腾讯研究院院长
随着技术的快速演进,基础模型正迎来一场深层次的跃迁。2025 年,大模型的训练重点从“数据+规模”转向“后训练+多模态”。这场变革的核心在于,强化学习开始在大模型后训练中发挥关键作用,并有望赋予模型自我优化与持续进化能力。例如,DeepSeek-R1-Zero通过纯强化学习展现出推理能力,这不仅为DeepSeek R1的训练提供了关键支撑,更全面地将大模型应用推向了推理时代。想象一下,未来在诸多场景下AI都不再需要人类工程师“手把手”教学,而是能像围棋大师AlphaGo那样,通过可验证的奖励信号,在工业机器人路径优化、复杂物流网络调度等领域自主找到最优解,甚至发现超越人类经验的全新策略,从而在未知环境中展现出卓越的适应性。同时,原生多模态生成技术实现了从底层结构上对图像、语音、文本等多模态数据的统一建模,使AI能够在同一上下文中理解和生成跨模态信息。例如,一段视频中人物的表情、语调与语义内容可以被同时感知并融合处理,从而推动了AI从“看懂”、“听懂”到“合成表达”的一体化跃迁。此外,声音模型的突破,为其带来了更加拟人化的语音能力,使其能够跨越语言和文化的障碍,实现全球范围的情感交流。我们不再只是与冷冰冰的机器对话,而是与一个能理解你语气中的疲惫、并用温暖声音回应的智能系统交流,这显著提升了人机交互的自然度和沉浸感,为构建拟人化、实时反应的智能系统奠定了坚实基础。
进入智能行动构建者(Agent)的领域,AI的角色正在发生深刻的变化——从传统的“工具”角色,逐步演变为每个人的“共生伙伴”。端到端Agent模型的崛起进一步推动了智能助手的进化,从单纯的执行任务转向成为更加可信的合作伙伴,能在多个场景下为用户提供更具深度的智能支持。借助大模型的推理与决策能力,这类智能体已能够主动感知用户意图、调度任务和协调资源,实现如行程安排、信息筛选和跨平台事务处理等日常操作的智能自主完成。智能助理将有望从小众工具走向大众应用,实现“人手一个”,进一步提升生活和工作效率。更有甚者,AI有望成为用户生活的个性化操作系统LifeOS。通过对用户日常生活相关的多模态数据(如语音、文本、行为轨迹、健康参数等)的长期整合与理解,构建起一个持续进化的“人生合伙人”。根据用户的习惯、偏好与情绪状态主动提供建议与支持,全面优化工作与生活的体验。
在行业应用方面,垂直行业智能体的出现正推动各个行业的智能化升级。AI不再仅仅提供通用模型或技术接口,而是以智能化工作流的形式深度嵌入医疗、金融、制造、零售和政务等关键行业。通过行业语料训练、场景逻辑建模和工作流集成,这些智能体能够承担风控审查、设备运维和客户服务等具体职能,显著提升业务效率与决策质量,推动从数字化到智能化的关键跃迁。而游戏智能体的沉浸式进化则为虚拟世界带来了全新的体验,AI不仅仅在游戏中扮演角色,更能通过高度自适应的行为与玩家进行深度互动,推动虚拟世界向着更加动态和不可预测的方向演进。
另一方面,智能的应用正在从语言智能走向空间智能。空间智能的兴起意味着AI从处理词元(Token)进化到理解体素(Voxel),初步具备了理解和处理三维世界的核心能力,包括3D环境的感知、推理、交互和生成。这一技术突破让AI能够像预测下一个词元一样去预测下一个体素,并再次基础上实现能力的涌现。空间智能正在重塑自动驾驶、机器人制造、XR混合现实、医疗手术、建筑设计和智慧城市等领域的工作方式,为AI迈向通用人工智能(AGI)补全了关键的物理常识和因果推理能力,推动AI从“会聊天”到真正“懂世界”的跨越式发展。
与此同时,具身智能的崛起,标志着图灵测试正从抽象的语言推理,迈向真实世界的感知—行动协同。AI不仅能“想得明白”,更能“动得精准”。通过与机器人平台、自动驾驶系统、智能穿戴设备等硬件深度整合,AI开始具备类人感知与灵活执行力,在复杂、多变的物理环境中完成导航、操控、交互等任务。从配送机器人在城市街区的自主行动,到养老机器人在特定情境中提供主动服务,具身智能正在重塑人机交互的边界,推动AI从“数字大脑”走向“现实代理人”,深刻改变人类的生活方式与生产模式。
综合来看,2025年强化学习和多模态融合让大模型真正“长出五官”,Agent在工作与生活各个领域的应用,逐步使其成为人类真正的“共生伙伴”,空间智能与具身智能有望让它走出比特世界,进入原子世界。大模型产业将真正跨入“技术-产品-社会”三位一体的深水区,我们不仅将见证效率的飞跃,更将共同探索如何与下一代AI建立更深层次的信任与合作,共同书写人类与AI和谐共存、持续发展的未来篇章。


▶
01 强化学习:引领大模型推理和行动能力新突破
强化学习(Reinforcement Learning, RL)正在大语言模型领域引发一场深刻的范式变革。当前,强化学习在大语言模型中的应用正从最初的人类反馈强化学习(RLHF)——主要旨在使模型输出符合人类偏好——向基于可验证奖励的强化学习(RLVR)大规模演进。RLVR将奖励信号直接绑定到客观、可验证的结果上(例如编程或数学问题的正确答案),从而将优化目标从“听起来正确”转向“确实正确”,显著提升了大模型的核心推理能力。这种转变正推动大模型超越简单的内容生成,向解决实际问题、实现复杂目标的高级智能迈进。
02 原生多模态生成:统一感知与生成的新时代
人工智能的早期发展主要聚焦于单一模态,如计算机视觉专注于图像理解,自然语言处理专注于文本分析。进入深度学习时代,特别是随着Transformer架构的突破性成功,为彻底的多模态整合铺平了道路。这催生了“原生多模态模型”(Natively Multimodal Models),其核心理念在于从架构设计之初就将多种模态(如文本、图像、音频、视频)视为一个统一的输入空间。通过共享或紧密耦合的表示层,模型能够实现跨模态信息的深度交互、对齐与融合。这种“原生”设计让模型能在单一框架内同时完成多模态的联合感知,并基于模态间深度关联的理解进行多模态生成。从 OpenAI 的 GPT-4o 实现文本、图像、音频的无缝交互,到 Sora、Veo3 等模型在视频生成领域的突破,这些标志性成果无不预示着统一感知与生成新时代的全面到来,即将改变多个行业的范式。
03 声音模型广进化:迈向通情达义的情感智能
声音模型正快速迈向具备情感智能的新阶段,成为推动人机交互自然化、个性化的核心技术力量。从早期的机械朗读发展到具备语境理解和情感表达能力的语音合成系统,再到可创作完整音乐作品和驱动视觉内容生成的多模态声音智能,AI声音技术正在实现从“工具”到“伙伴”的跃迁。声音的实时性与情感表达优势,使其在未来的Voice Agent、沉浸式内容创作、教育与医疗辅助等领域具备广阔应用前景。随着模型个性化、低延迟和端侧部署的进步,声音智能将走向更贴近用户、更普惠的交互形态,开启“人人皆可创、处处能互动”的智能新时代。
04 智能体双轨进化:编排类与端到端的分途并进
AI Agent作为人工智能领域的重要发展方向,正经历着从概念验证向生产应用的关键转变。自2023年探索性发展至今,已逐渐分化为两条主要技术路线:编排类Agent(Orchestration-based Agents)和端到端Agent模型(End-to-End Agent Models)。编排类Agent采用“外挂式”架构,将大语言模型作为中央决策器,通过预定义的代码路径编排LLM与外部工具、API的交互,实现复杂任务的分解与执行。端到端Agent模型则采用“内化式”架构,通过强化学习等技术将推理、规划、工具使用等能力直接训练到模型内部,让模型能够动态指导自己的过程和工具使用。以OpenAI的o3、Deep Research等为代表,这一路线仍处于早期阶段,但在特定专业领域已展现出突破性效果。两条路线各有优势和适用场景,将在未来长期并行发展,共同推动AI Agent技术向更加实用和强大的方向演进。
05 LifeOS: AI成为个性化生活的操作系统
随着生成式AI技术的快速成熟,人工智能正从辅助工具逐渐演化为人类生活深处的“共生伙伴”。OpenAI创始人Sam Altman最近提出了一个前瞻性的愿景:“LifeOS”描绘了一个超越传统工具范畴的AI未来。他指出,人们对AI的使用方式正在从偶发性的单一任务转变为持续性的智能交互,AI不再只是回答问题的工具,而是贯穿用户一生、主动提供帮助的智能伴侣。这一愿景预示着AI将更深层次地融入我们的日常生活,成为一个具备终身记忆、个性化推理和主动行动能力的“生活操作系统”。这一趋势背后的技术基础,包括长序列记忆模型、上下文理解引擎和主动决策引擎,正在不断突破和完善。深入理解LifeOS的发展方向,不仅帮助我们洞察下一代人工智能应用的演变轨迹,更将重新定义人与机器的关系,深刻影响未来人类生活与社会运行模式。
06 智力即服务:智能化工作流赋能产业升级
随着AI能力从“算力驱动”迈向“智力驱动”,企业正进入“智力即服务”阶段,Agent逐步成为企业知识系统、流程结构与组织角色的原生组成。在与知识的关系上,企业正从“有知识”走向“能调用”。RAG、数据飞轮和知识结构化机制的演进,使企业知识从“沉默资产”转变为被智能体实时调度的认知系统。在与人的关系上,Agent正从被动工具向数字员工演化。它们开始承担闭环流程、具备权限边界,并成为流程体系中的原生节点。企业不再部署AI功能,而是部署具备行为责任的“数字岗位”。在与流程的关系上,智能化不再依赖单一Agent,而依赖系统性的Agent网络与调度平台。组织开始围绕任务流、感知流与控制流重新编排流程边界,迈向由Agent协作驱动的系统智能时代。
07 游戏智能体:AI在虚拟世界的沉浸式进化
游戏智能体正在重新定义虚拟世界中AI与人类的交互边界。从早期简单的脚本化NPC到如今具备深度学习能力的自主智能体,这一演进不仅体现了技术的飞跃,更预示着虚拟世界正在向着一个充满生命力的数字生态系统转变。当代游戏智能体通过强化学习、大语言模型、多模态感知等前沿技术,已经能够理解复杂的游戏环境、学习玩家行为模式、生成个性化的互动内容,甚至展现出类似人类的情感反应和社交能力。这种沉浸式进化使得AI不再是虚拟世界的配角,而是成为推动游戏叙事、创造涌现式玩法、构建动态社交网络的核心驱动力。随着技术的持续突破,游戏智能体正在为元宇宙时代的到来奠定坚实基础,让虚拟世界真正成为人类生活、工作、娱乐的第二空间。
08 具身智能的“GPT-2时刻”:基础模型、数据工程与软件平台的协同进化
从生成式人工智能特别是GPT展现出的历程来看,具身智能领域正通过规模效应蓄积飞跃动能:2025年极有可能成为具身智能领域的“GPT-2时刻”。以VLA(视觉-语言-动作)多模态大模型突破为代表的诸多进展标志着具身智能从专用场景和单一任务向更通用、更智能、更具自主性的机器智能迈出了关键一步,其影响将进一步激活机器人在人居环境的应用潜能。具体来说:一是强大的端到端多模态基础模型正在被构建,它们将赋能机器人大小脑向更高级认知与执行能力跃升,并展现出一定到泛化性;二是大规模的真实与合成数据正在以前所未有的规模被生成和利用,为模型的训练提供支撑;三是跨模态跨本体的软件平台正在统一开发流程;腾讯、英伟达等互联网公司通过构建机器人模拟和训练平台,加速技术的落地,激活万亿级的上下游生态。
09 空间智能:从看见到理解三维世界
随着AI技术的不断突破,智能的应用正在从语言智能走向空间智能。空间智能的兴起意味着AI从处理词元(Token)进化到理解体素(Voxel),具备了理解和处理三维世界的核心能力,包括3D环境的感知、推理、交互和生成。这一技术突破让AI能够像预测下一句文本一样去预测三维空间并涌现。空间智能正在重塑自动驾驶、机器人制造、XR混合现实、医疗手术、建筑设计、智慧城市等领域的工作方式,为AI走向通用人工智能(AGI)提供关键的物理常识和因果推理能力,推动AI从“会聊天”到真正“懂世界”的跨越式发展。
10 测试转量产,应用推动具身智能本体加速成熟
2025 年 3 月发布的《2025 年国务院政府工作报告》,首次将智能机器人定位为“新一代智能终端和智能制造装备”,其纳入“人工智能+”行动计划。同时《工作报告》还明确提出“培育具身智能等未来产业”,这标志着具身智能已上升至国家战略高度。随着技术突破和应用场景的不断拓展,具身智能本体 - 机器人正从实验室走向产业化,迎来从测试到量产的关键转折点。本专题深入分析具身智能本体发展由“测试”向“量产”的重大转变,其硬件配置、能力提升和产业影响三个维度的最新发展趋势,并探讨其如何在应用驱动下加速走向成熟。