腾讯AI下半场深度解读：汤道生与姚顺雨对谈

2026-06-06

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

腾讯AI对谈指出，AI下半场的关键在于寻找好问题而非方法论。模型与产品需深度协同，建

刚刚，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生，和腾讯首席AI科学家姚顺雨在北京国家会议中心展开了一次对谈，聊了聊腾讯在大模型与AI产品上的思考与进展。以下是对谈全文。

01 做模型和产品的第一性原理是什么？

**汤道生** 顺雨，你加入腾讯前，我记得当时我问过你一些问题——为什么下半场会选择来腾讯？而且你认为AI下半场最重要的是什么？ **姚顺雨** 先解释一下什么叫做“下半场”。这个词最近有点被滥用，这个概念是我去年在一个博客里提出来的。我的意思是，在去年之前AI已经发展了几十年，但更重要的是怎么去解决问题、寻找好的方法。现在很明显，方法论已经变得非常成熟，但寻找问题反而变得更困难了。举个例子，过去我们发明AlphaGo，是为了下围棋。这个方法只适合下围棋或者各种棋类。你要做翻译，就得单独做一个模型，它只能做翻译，做不了别的。但有了预训练和后训练之后，我们发现手里有了一把万能锤子，它能砸任何钉子。这是一个通用的方法论，可以解决各种各样的问题。反而更困难的是，怎么去寻找好的问题去解决。加入腾讯很重要的一点是——这里有很多好的问题和产品，这一点在接下来会越来越重要。一方面，好的产品能解决第一个问题：预训练和后训练之后，到底要应用在什么地方产生价值。另一方面，环境也非常重要。如果没有好的环境，Agent就没办法做各种各样的事情。比如没有点外卖的工具，就没法点外卖。很多事情做不到。最重要的是context——无论是企业还是个人，就像我上次在AGI-Next说的，context越来越重要。因为模型越来越擅长把复杂的输入变成输出，很多时候你的竞争壁垒就在于你有没有最原始的输入——你知不知道这个人到底在干什么，你知不知道这个企业各种各样的信息。这一点，腾讯有很强的优势。但这其实只是第二大的原因。最重要的原因是文化。我记得第一次跟你聊天，包括和其他总办老板聊天的时候，第一印象就是大家都非常诚实——哪里做得好哪里做得不好，非常直白，不会掩盖。这种坦诚是我最初的感觉。第二，腾讯是一家基于trust而非metric运转的公司。这一点对做AI非常重要。我们的文化有非常low ego、非常solid的一面，对于长期做一个AI组织非常重要。包括对长期主义的坚持。所以，AI下半场最重要的是什么？在我看来，我们应该在中国建立一个长期的、基于AGI的组织。今天的AI主要有三部分：首先是foundation的部分，把预训练和后训练最基础的东西做得非常solid；第二部分是产品，把这样的技术真正为人和社会创造价值；第三是frontier，探索新的研究范式和机会。最重要的是构建一个非常均衡的三角形组织。对于做foundation来说，第一重要的是有充足的资源，第二是需要正确的做事方式，这和我刚才说的文化也是吻合的。对于产品来说，好的产品sense和做产品的人是至关重要的。第三个，在中国，我们今天所做的前沿探索还不够多，所以我希望能把frontier exploration的精神更多地注入到我们的组织中。 **汤道生** 你提到的沟通中感受到的真诚或务实的氛围，也是我经常从客户那里得到的反馈。我觉得我们的做事方式和产品理念，其实是比较实事求是的。毕竟AI赛道是长跑，有时候认知也很重要，做得好的和做得不好的我们也得认。但关键是，这是一个多维度的竞赛。现在模型有很多进步，产品也有越来越多的形态，不同的场景有不同的需求。未来还是非常可期的。

02 Co-Design：模型和产品如何深度协同？

**汤道生** 你刚刚提到模型跟产品，产品可以说提供一个环境，里面要给模型提供context和上下文。我想问一个问题——我们平时开会时经常提到一个词叫Co-Design。怎么把产品和模型比较紧密地结合起来？尤其今天有这么多丰富的产品，从合作非常紧密的元宝这样的聊天机器人，到AI搜索，到企业里部署的智能客服、智能营销，再到最近很火的CodeBuddy、Workbuddy这类产品，它们对模型的依赖很深。你怎么思考Co-Design这个方式？ **姚顺雨** 有三点。首先，Co-Design的前提是模型本身要做得非常solid，很多foundational的工作要做好。预训练是一个相对产品agnostic的事情，它做得非常solid，能提供非常强的foundation。预训练最大的特点是它是一个可泛化的学习过程，它的进步可以带给各种各样的下游任务持续的价值提升。后训练最重要的一点是要设立好正确的Eval。在中国有个不太好的倾向是大家喜欢刷榜，但更重要的是如何实事求是地基于产品、基于真正的应用，构造更加真实的Eval。第二，要意识到“实用性”的价值大于刷榜的价值。我们在这方面做了大量工作，和各种各样的产品进行了深度Co-Design。Co-Design很关键的一点是要产生相互信任。我们做了大量工作来取得互信——怎么把产品数据用好，怎么回流，怎么把Eval做好。有很多细节，我就不赘述了。第三，LLM时代和过去的AI最本质的区别就是泛化性。在LLM之前，做翻译产品只要把翻译数据做得特别好就行，做围棋程序也只需要把围棋数据准备好。但今天，即使你只想做一个Coding Agent，你会发现需要的不仅仅是Coding Agent的数据，还需要非常好的聊天能力、搜索能力、指令遵循能力、推理能力。它其实是一个非常复合的数据taxonomy。这需要对这个事情有一种taste。这个事情的推论是，有很多产品的体系化地方会有比较大的优势。比如我们和元宝的Co-Design，使模型产生了很强的聊天和搜索能力，这样的能力又可以被迁移到ima和Workbuddy等其他产品。这些产品能提供不同的数据，但这些数据之间又可以相互泛化，形成一个像网络一样的体系。这一点的价值越来越重要。 **汤道生** 对，外部的榜也属于Eval的一种。那我们内部的Eval和外部的榜有什么区别？ **姚顺雨** 首先，benchmark还是有它的价值的，不是完全没有价值。只是这些榜非常容易overfitting。基于真实世界的数据对模型的研发是有帮助的。首先，你能发现模型很多底线问题——我们先发一个Preview模型，最主要的目的之一就是获得真实世界的反馈，修复各种各样榜单中没有发现的问题，这在正式版上有很大的改进。第二点，你会对真实的Prompt distribution有更深的了解。举个例子，benchmark上面的题目可能都非常精确，有非常长的、具体的描述，一般来说是一个单纯的问题。但现实场景中，大家问的问题都比较模糊，可能就一两句话，还会不停地追问。这些场景能启发我们怎么更好地做训练。第三点，我们甚至可以在这些产品上获得一些灵感，去推进现在还没有的榜单或领域。比如说，我们最近做了很多Context learning的工作，元宝的反馈给了我们很大的启发和帮助。所以产品和模型的互相成就，是越来越重要的一个AI话题。 **汤道生** 我记得早期做元宝的时候，还碰到过多轮遵循的问题。用户在使用产品时迭代Prompt的方式和benchmark确实有差异。真正在产品里大家使用所需要的能力，和benchmark确实有很大的差异。 **姚顺雨** 你问我这么多问题，我也问你一个问题。 **汤道生** 欢迎。 **姚顺雨** 我第一次跟你聊的时候，你跟我讲了很多过去的经历——从QQ空间、QQ秀的时代，一直到我小学时候最喜欢的产品，到QQ音乐、到云、到现在的元宝。跟你聊天很有意思，因为你做过各种各样的产品，to C也有、to B也有，远古时代的也有、最近AI时代的也有。我比较好奇，你做产品的第一性原理是什么？哪些经验和价值是不变的，哪些是变的？ **汤道生** 我觉得做产品最终还是本着用户有什么需求，我怎么去解决他的痛点，怎么给用户或客户创造价值。在不同的时代、甚至不同的行业，你做一个产品还是需要能给用户带来价值，他才会买单、才会使用。从PC互联网时代做空间，到移动时代做各种各样的产品和内容产品，再到产业互联网做云，我们都要花很多时间和精力去听客户的声音，尝试帮他们解决问题。底层的逻辑其实没有太大变化。但确实，在PC互联网、移动互联网时代做产品，和今天在AI时代做产品，还是有蛮多不一样的地方。从范式的角度看，在AI时代以前，我们做产品很多时候是通过功能来满足用户需求——你作为产品提供方，想清楚提供什么样的能力，让用户通过某些菜单去选，好像是“预制菜”，你只能在上头点菜。但在AI时代做产品，那种开放式的服务形态会带来很不一样的要求和挑战。简单的交互方式可能是自然语言、可能是语音，作为产品方你也不知道用户会问什么。所以要充分利用模型能力去理解用户需求，通过大模型的逻辑推理调用工具的能力，产品给模型提供各种各样可用的工具，来应对这种开放式的需求。这是和我们过去做产品很不一样的地方。甚至包括你刚刚提到的Eval。以前做产品，有很清晰具体的功能描述，怎么设计、研发、测试，那个瀑布式流程也比较清晰。但做AI产品，最大的变化是整个流程可能都要重新设计。尤其今年，大部分代码都由AI生成，工程师可能会花更多时间做架构设计，把写代码的工作交给AI，然后定期去指导和修正。测试也要左移，更前置地想清楚各种案例的Eval和环境，对开放式答案的要求，甚至alignment怎么和用户需要的风格对齐。今天做产品，要求的能力更全面了。 **姚顺雨** 更难了。 **汤道生** 问你一下混元3。大家都在说Hy3 preview是你的腾讯首秀，具体混元3做了什么改变，能给大家介绍一下吗？ **姚顺雨** 其实没什么秘密。今天做大模型从某种程度来说是比较trivial的事情——我们应该把Infrastructure做好，把数据做好，算法的部分反而是比较简单的。主要有几个点。第一，我们把Infrastructure重建了，无论是预训练还是强化学习。第二，我们把数据和Eval做了很大的改变——如何定义更真实的问题，如何丰富数据的taxonomy，如何提高数据质量，这是一个永无止境的追求。第三，很多决策其实包括怎么招人、怎么设立模型的节奏、怎么每天做很多decision，要考虑很多trade-off。没有一个很清晰的公式，是一个很taste-driven的事情。我也很好奇问你一个问题。你刚刚跟我讨论Co-Design这个概念，我想知道你对Co-Design是怎么想的？你觉得哪些事是模型该做的，哪些是产品该做的？ **汤道生** 我觉得Co-Design在不同阶段是在变化的。过去这两年，变化某种程度上是随着模型能力的升级而变化的，当然整个行业、市场和用户需求的变化也会带来我们两边——模型和产品——需要更好地去满足。一个比较深的感受是怎么去对齐。我们一起做产品、做对齐会议时，有很多不同的决策。产品可能要针对某个方向去解决一些问题，模型到底怎么做才能满足这个需求？但你要回到模型需要数据——数据该怎么标注，到什么颗粒度，什么是好的标注、什么是不好的标注？有些地方要奖励，有些地方要惩罚。还有Eval和评测——如果产品认为好的产品体验，评测却不认同，那大家做出来的产品就会不一致。所以Co-Design给我的感觉更多是，在项目组里，不同的角色参与到产品设计中，确定一些产品的目标方向，怎么让多个角色能对一些开放式问题有比较好的对齐。如果没有做到这种对齐，你会发现产品的行为不可预测，甚至会有随机性，因为模型训练的过程可能也被混淆了。这是我这两年跟产品团队和模型团队做Co-Design比较深的感受。你觉得呢？ **姚顺雨** 就像我刚刚说的，首先最难的一点是建立Trust。毕竟同理心很重要，因为说到底，做模型的目标和做产品的目标有很多align的部分，也有很多不align的部分。模型人希望能力越强越好，产品人觉得用户需求越满足越好。所以天然有很多不align的部分。很重要的一点是，要有换位思考的能力。你刚刚问元宝我们是怎么一步一步Co-Design的——一个很重要的细节是，当时我们派了后训练最强的骨干力量去帮元宝把后训练做好。当时我们自己的预训练还没准备好，但我们知道维护元宝这样的产品以及它的DAU，对我们接下来做模型非常非常重要，对创新的合作也非常重要。当时很多算法同学不理解，我需要很努力去解释。但现在看起来，这些努力都是值得的trade-off。这个动作让产品意识到，模型同学是真的在为产品着想——这对于我们之后的合作，包括Hy3 preview在元宝上成功上线，起到了非常重要的作用。当然有很多技术的部分可以探讨，但最难的反而是怎么建立信任、怎么换位思考。

03 Agent：技术怎么走、产业怎么落地？

**汤道生** 非常认同。换个话题，你是ReAct架构的提出者，博士研究也是围绕语言智能体展开的。你几年前的一些观点到今天兑现了吗？比如哪些？ **姚顺雨** 那天我挺感慨的，重新读了自己的博士论文，感觉又回到了一个很远古的时代。我的博士论文的title叫“Language Agent: from next token prediction to digital automation”，是2019年的。 **汤道生** 7年前。 **姚顺雨** 那时候literally就是GPT2的时代，它只能做next token prediction，而且产生一段话不太连续，有很多毛刺。当时人们很难想象它有一天能成为改变世界的力量。大家做的研究稍微有点想象力，比如“中国首都是？”——如果做next token prediction，它会回答“北京”。大家觉得这是一个有knowledge的事情，能做到这一点就很开心了，觉得这个技术很有意思。当时我的想象力比较狂野。我觉得GPT是一个非常优美的东西——吐下一个token是一个非常极简且通用的事。我觉得它有一天潜力不仅仅在于吐出下一个token，而在于把这个世界上所有的事情全部automate。当时我想得还不够大，想的是digital automation，但现在看来也有可能是digital and physical automation。博士期间我主要做两部分。第一部分是如何建立一个Agent方法论，如何把一个next token prediction的机器变成一个Agent、一个自动化的机器。最重要的工作可能是你提到的ReAct。记得2022年7月的某一天晚上，当我第一次把PaLM 2的API和当时手写的一个Wikipedia API连在一起，它第一次能基于网页回答问题，并且做多轮交互的时候，我感觉就像微弱的电灯突然亮了一样。据我所知，那是人类第一次把LLM和互联网连在一起做多轮交互。当时我的感觉是，这个可能在5年或10年后会改变世界，但可能比我想象的还要更快。另一部分工作是，怎么定义Digital automation的任务。比如WebShop是第一个基于互联网的Web Agent task，包括InterCode和SWE-bench是最早的Coding Agent任务。现在看来，Agent技术最重要的两个部分确实是Web Agent和Coding Agent。那天我在群里跟大家聊天，看我博士论文的结尾，是在2024年写的future work：第一是train models for Agent，第二是safe and robust deployment，第三是scientific discovery，第四是怎么去help human。我很感慨，我现在很幸运，确实在做当时列的那些future direction。 **汤道生** 太厉害了，都一一看到整个行业这些方向在推进。 **姚顺雨** 可能想的还是不够大。我觉得已经觉得自己想得够大了，但可能还是不够大。 **汤道生** 技术的发展往往超乎我们的预期。智能体今天大家都说需要消耗很多token，token的调用量很大。对于混元做下一代模型研发，你觉得什么是你的侧重，有哪些地方比较重要？ **姚顺雨** 毫无疑问，今天Agent或者Coding Agent有点像预训练一样，是不得不做的事情，是最基础的能力。我个人觉得Coding Agent非常本质，有很多原因。一个重要的原因是，它是一个有点像图灵完备的事情——当你有能力去控制自己的file system，当你有一个container的时候，其实你是一个完整的system。今天Agent毫无疑问是每一家模型发力的重点。我们的方法可能会有几个区别：第一，即使今天Coding已经是最重要的事情，但我们还是会强调体系的全面化。要把Coding做好，其实需要远远不止Coding的数据，也需要聊天、推理等各种各样的东西——因为大模型最重要的点是泛化性。第二，产品的作用越来越重要，如何利用好线上回流，是每个模型厂商都在应对和思考的问题。这就让刚刚积累的Co-Design经验变得非常重要。第三，我觉得还需要更多想象力——无论是技术演进、产品演进，还是下一个范式演进，我们需要做一些探索性的、甚至不确定性的工作。 **汤道生** 从产品侧看，越来越多的人有token焦虑——token成本爆发式增长。很多客户甚至用户身边的同事也在紧盯着积分消耗或token消耗。怎么让我们的模型在解决某个问题或完成某个任务时，token效率更高？我之前做过一些任务，有些方向明知道走不下去，但模型可能还会试，试完之后走不下去再试下一个。这里面有什么可以optimize的地方，让token整体使用效率更高？ **姚顺雨** 在中国讨论性价比，很多人讨论模型架构，但其实它是一个很复杂的体系。最重要的是，首先是你的performance。很多人跟我说，最后发现用OPUS这样的模型比用更差的模型更省钱——因为它更早把事情做对了，也省了人的精力。所以最重要的事情是performance——如果你的performance好，性价比才是最关键的。尤其今年，很多简单任务的robustness会变得更加重要。一次把相对简单的任务做对，可能是性价比更关键的部分，而不仅仅是模型架构。第二部分就是成本本身——性价比的第一是性能，如果性能不好，性价比就无从谈起。第二点是成本。中国在成本方面是领先于世界的，我们做了大量工作来优化成本。成本最重要的事情可能是，怎么用一个更小的模型把更高价值的任务做好。在此基础上架构创新，包括长文管理和脚手架，有很多需要做的事情。如果我们做一个相对较小的模型，但能比肩大模型的性能，并且在大部分任务上做很强的robustness——这可能在很多长程任务上提升一两个百分点，在今天中国可能更有价值。我很好奇，您觉得Agent是什么时候让你意识到它是一个新的产品的机会？现在的认知是什么？您觉得我们现在离一个好用的Agent，bottleneck在哪里？ **汤道生** 我们做的Agent，针对不同场景有不同的产品形态。在Agent设计上，很大程度上是发挥好模型的能力。模型在迭代，它能力越强，Agent需要做的工作就越少。我们好几个产品在过去这段时间，随着模型能力加强，可以把产品和Agent做得更简化，更多地为模型提供不同的工具，创造更多的skills，让模型能更高效地完成任务。给模型提供更多的记忆——用户过去的使用习惯、能提取出来的用户偏好信息，作为上下文。在Coding环境中，有相关的context给到模型。在Workbuddy里办公协作做个PPT，大家关注的内容或者该给模型的context也会不一样。所以做不同的Agent，更重要的是了解场景下什么内容、什么信息是重要的、relevant的，能够和模型配合好，让模型有它需要的信息，同时也发挥它的能力。 **姚顺雨** 最近我们确实推出了一些像Workbuddy这样口碑不错的产品，背后有很多小团队在快速迭代。我挺好奇，相对于传统的产品研发，在新的Agent时代，产品团队在研发和组织管理上发生了哪些变化？你的思考是什么？ **汤道生** 前阵子我在帮Workbuddy做一个组织发文。我看了一下他们那个非常扁平化的组织，和我们过去的其他产品组织架构有很大差异。更多是小团队，三个人五个人，围绕某一个领域做攻坚，而且有很多试验在里面。还要支持Infra做实验，让不同的小分队可以去探索、验证。因为大部分试验拿不到正向反馈，我们也要包容团队去试错。通过大量试验去提炼出对用户流程、对想要的结果有正向帮助的要素——这是今天做Agent、做原生AI产品，组织形态需要能够比较好地支撑的。另外，原来很多工程师有很多时间花在写代码上。但今天毫无疑问，这些工作可以交给AI了。所以我们会看到更多角色的融合——大家都是产品经理，都要了解透彻用户需求，设计出我们想要的产品形态。每个工程师更像一个有想法的leader，驱动多个Coding Agent，针对我们想要的产品需求去做研发、开发。同时要参与评测、测试，比较前置地用好AI能力，把这些质量保证工作和对齐工作做到前面来。

04 行业研判：AI新的机会在哪里？

**汤道生** 我想再问一个大家讨论比较多的问题。很多人会说腾讯慢，说在AI上面我们没有及时抓住一些机会。你觉得我们真的慢了吗？到底下半场是什么？你能再多说一下吗？ **姚顺雨** 感觉应该是我问你的问题。 **汤道生** 哈哈。 **姚顺雨** 我觉得AI今天有两个重要判断。第一个，我们认为AI是个短期游戏还是长期游戏？在硅谷蔓延着很多情绪——1-2年后所有人都要失业，AI要取代所有人的工作，要赶快赚2年钱退休。但很显然，我们的判断是AI是一个长期游戏。AI才刚刚开始，下半场才刚刚开始。我不认为ChatGPT和ClaudeCode会是唯一的super App——那是一个非常灰暗的世界。我觉得肯定会有源源不断的新机会诞生。可能今天就像是70年代PC刚刚产生的时候，还有很多很多事情需要做。第二个判断，它会是一个更线性的游戏还是更多元的游戏？过去几年大家能看到的是pre-training、post training、然后Agent、Coding Agent，似乎有一条非常清晰的主线，所有人都在做一样的事情，都在copy——这也是非常灰暗的。但未来到底是变得更单一还是更多元？我的个人看法是，会变得更多元。毫无疑问，Coding Agent的生产力会变得更加重要，它才刚刚开始。这个世界还有很多空间没有被填满——多模态、具身智能，很多很多新的事情都在发生，或者刚刚发生。从这个角度来说，如果我们认为下半场刚刚开始，那可能确实不是完结。过去模型、产品做了很多探索，走了很多弯路，这是正常的——你如果没有做过一件事，第一次做肯定有曲折。但可能更重要的是，能不能诚实面对自己，能不能be real，能不能看到feedback然后去改变，能不能保持耐心。这是下半场最重要的事情。 **汤道生** 大家对于腾讯经常喜欢挑某一个点来批评。当然我觉得我们也很欢迎大家给我们提更高的要求。我们是一个非常多的业态的公司，有很多产品分布在很多赛道，也有很多团队在推进不同的项目、不同的事情。所以在这样一个复杂的组织里，有些地方可能我们做得快了，有些地方做得慢了，有些地方可能会失败，在探索。我觉得这些提醒都非常好——确实有些地方我们可以做得更好。但就像你说的，这是一个长跑，是一个马拉松。腾讯还是有非常丰富的场景。就你一开始提到的，选择腾讯是因为AI需要Context，模型需要很多上下文。腾讯过去多年在不同产品、不同赛道的积累，其实都可以针对每一个场景为模型提供有用的信息，提供这些Context来发挥价值。在这样一个长跑中，我相信模型会不断迭代，用户的需求也在不断变化，也会有新的产品形态出现。比如今年年初对Agent这一波热潮，我们的反应也比较快。同时，也有像Workbuddy这样的智能体产品，是几年前就开始做的产品——原来做Coding、Codebuddy，慢慢看到非程序员也有很强的需求，我们也能比较快地应对。今天也听到很多客户对我们不同产品怎么组合起来，有非常高的期待。所以我们正在长跑中，也请各位多给我们提醒、多给我们建议，也多使用我们的产品给我们正向的反馈。

来源：互联网

上一篇 AI健康助手价值排行榜：权威指南与深度评测 下一篇 分子之心MMDesign评测：靶点命中率突破90%

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

腾讯AI下半场深度解读：汤道生与姚顺雨对谈

摘要

01 做模型和产品的第一性原理是什么？

02 Co-Design：模型和产品如何深度协同？

03 Agent：技术怎么走、产业怎么落地？

04 行业研判：AI新的机会在哪里？

相关文章推荐