热点资讯
腾讯AI
汤道生与姚顺雨对谈
腾讯AI下半场深度解读:汤道生与姚顺雨对谈
摘要
腾讯AI对谈指出,AI下半场的关键在于寻找好问题而非方法论。模型与产品需深度协同,建
刚刚,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生,和腾讯首席AI科学家姚顺雨在北京国家会议中心展开了一次对谈,聊了聊腾讯在大模型与AI产品上的思考与进展。
以下是对谈全文。
**汤道生**
你刚刚提到模型跟产品,产品可以说提供一个环境,里面要给模型提供context和上下文。我想问一个问题——我们平时开会时经常提到一个词叫Co-Design。怎么把产品和模型比较紧密地结合起来?尤其今天有这么多丰富的产品,从合作非常紧密的元宝这样的聊天机器人,到AI搜索,到企业里部署的智能客服、智能营销,再到最近很火的CodeBuddy、Workbuddy这类产品,它们对模型的依赖很深。你怎么思考Co-Design这个方式?
**姚顺雨**
有三点。
首先,Co-Design的前提是模型本身要做得非常solid,很多foundational的工作要做好。预训练是一个相对产品agnostic的事情,它做得非常solid,能提供非常强的foundation。预训练最大的特点是它是一个可泛化的学习过程,它的进步可以带给各种各样的下游任务持续的价值提升。后训练最重要的一点是要设立好正确的Eval。在中国有个不太好的倾向是大家喜欢刷榜,但更重要的是如何实事求是地基于产品、基于真正的应用,构造更加真实的Eval。
第二,要意识到“实用性”的价值大于刷榜的价值。我们在这方面做了大量工作,和各种各样的产品进行了深度Co-Design。Co-Design很关键的一点是要产生相互信任。我们做了大量工作来取得互信——怎么把产品数据用好,怎么回流,怎么把Eval做好。有很多细节,我就不赘述了。
第三,LLM时代和过去的AI最本质的区别就是泛化性。在LLM之前,做翻译产品只要把翻译数据做得特别好就行,做围棋程序也只需要把围棋数据准备好。但今天,即使你只想做一个Coding Agent,你会发现需要的不仅仅是Coding Agent的数据,还需要非常好的聊天能力、搜索能力、指令遵循能力、推理能力。它其实是一个非常复合的数据taxonomy。这需要对这个事情有一种taste。
这个事情的推论是,有很多产品的体系化地方会有比较大的优势。比如我们和元宝的Co-Design,使模型产生了很强的聊天和搜索能力,这样的能力又可以被迁移到ima和Workbuddy等其他产品。这些产品能提供不同的数据,但这些数据之间又可以相互泛化,形成一个像网络一样的体系。这一点的价值越来越重要。
**汤道生**
对,外部的榜也属于Eval的一种。那我们内部的Eval和外部的榜有什么区别?
**姚顺雨**
首先,benchmark还是有它的价值的,不是完全没有价值。只是这些榜非常容易overfitting。基于真实世界的数据对模型的研发是有帮助的。首先,你能发现模型很多底线问题——我们先发一个Preview模型,最主要的目的之一就是获得真实世界的反馈,修复各种各样榜单中没有发现的问题,这在正式版上有很大的改进。
第二点,你会对真实的Prompt distribution有更深的了解。举个例子,benchmark上面的题目可能都非常精确,有非常长的、具体的描述,一般来说是一个单纯的问题。但现实场景中,大家问的问题都比较模糊,可能就一两句话,还会不停地追问。这些场景能启发我们怎么更好地做训练。
第三点,我们甚至可以在这些产品上获得一些灵感,去推进现在还没有的榜单或领域。比如说,我们最近做了很多Context learning的工作,元宝的反馈给了我们很大的启发和帮助。所以产品和模型的互相成就,是越来越重要的一个AI话题。
**汤道生**
我记得早期做元宝的时候,还碰到过多轮遵循的问题。用户在使用产品时迭代Prompt的方式和benchmark确实有差异。真正在产品里大家使用所需要的能力,和benchmark确实有很大的差异。
**姚顺雨**
你问我这么多问题,我也问你一个问题。
**汤道生**
欢迎。
**姚顺雨**
我第一次跟你聊的时候,你跟我讲了很多过去的经历——从QQ空间、QQ秀的时代,一直到我小学时候最喜欢的产品,到QQ音乐、到云、到现在的元宝。跟你聊天很有意思,因为你做过各种各样的产品,to C也有、to B也有,远古时代的也有、最近AI时代的也有。我比较好奇,你做产品的第一性原理是什么?哪些经验和价值是不变的,哪些是变的?
**汤道生**
我觉得做产品最终还是本着用户有什么需求,我怎么去解决他的痛点,怎么给用户或客户创造价值。在不同的时代、甚至不同的行业,你做一个产品还是需要能给用户带来价值,他才会买单、才会使用。从PC互联网时代做空间,到移动时代做各种各样的产品和内容产品,再到产业互联网做云,我们都要花很多时间和精力去听客户的声音,尝试帮他们解决问题。底层的逻辑其实没有太大变化。
但确实,在PC互联网、移动互联网时代做产品,和今天在AI时代做产品,还是有蛮多不一样的地方。从范式的角度看,在AI时代以前,我们做产品很多时候是通过功能来满足用户需求——你作为产品提供方,想清楚提供什么样的能力,让用户通过某些菜单去选,好像是“预制菜”,你只能在上头点菜。
但在AI时代做产品,那种开放式的服务形态会带来很不一样的要求和挑战。简单的交互方式可能是自然语言、可能是语音,作为产品方你也不知道用户会问什么。所以要充分利用模型能力去理解用户需求,通过大模型的逻辑推理调用工具的能力,产品给模型提供各种各样可用的工具,来应对这种开放式的需求。这是和我们过去做产品很不一样的地方。
甚至包括你刚刚提到的Eval。以前做产品,有很清晰具体的功能描述,怎么设计、研发、测试,那个瀑布式流程也比较清晰。但做AI产品,最大的变化是整个流程可能都要重新设计。尤其今年,大部分代码都由AI生成,工程师可能会花更多时间做架构设计,把写代码的工作交给AI,然后定期去指导和修正。测试也要左移,更前置地想清楚各种案例的Eval和环境,对开放式答案的要求,甚至alignment怎么和用户需要的风格对齐。今天做产品,要求的能力更全面了。
**姚顺雨**
更难了。
**汤道生**
问你一下混元3。大家都在说Hy3 preview是你的腾讯首秀,具体混元3做了什么改变,能给大家介绍一下吗?
**姚顺雨**
其实没什么秘密。今天做大模型从某种程度来说是比较trivial的事情——我们应该把Infrastructure做好,把数据做好,算法的部分反而是比较简单的。主要有几个点。
第一,我们把Infrastructure重建了,无论是预训练还是强化学习。第二,我们把数据和Eval做了很大的改变——如何定义更真实的问题,如何丰富数据的taxonomy,如何提高数据质量,这是一个永无止境的追求。第三,很多决策其实包括怎么招人、怎么设立模型的节奏、怎么每天做很多decision,要考虑很多trade-off。没有一个很清晰的公式,是一个很taste-driven的事情。
我也很好奇问你一个问题。你刚刚跟我讨论Co-Design这个概念,我想知道你对Co-Design是怎么想的?你觉得哪些事是模型该做的,哪些是产品该做的?
**汤道生**
我觉得Co-Design在不同阶段是在变化的。过去这两年,变化某种程度上是随着模型能力的升级而变化的,当然整个行业、市场和用户需求的变化也会带来我们两边——模型和产品——需要更好地去满足。
一个比较深的感受是怎么去对齐。我们一起做产品、做对齐会议时,有很多不同的决策。产品可能要针对某个方向去解决一些问题,模型到底怎么做才能满足这个需求?但你要回到模型需要数据——数据该怎么标注,到什么颗粒度,什么是好的标注、什么是不好的标注?有些地方要奖励,有些地方要惩罚。还有Eval和评测——如果产品认为好的产品体验,评测却不认同,那大家做出来的产品就会不一致。
所以Co-Design给我的感觉更多是,在项目组里,不同的角色参与到产品设计中,确定一些产品的目标方向,怎么让多个角色能对一些开放式问题有比较好的对齐。如果没有做到这种对齐,你会发现产品的行为不可预测,甚至会有随机性,因为模型训练的过程可能也被混淆了。这是我这两年跟产品团队和模型团队做Co-Design比较深的感受。你觉得呢?
**姚顺雨**
就像我刚刚说的,首先最难的一点是建立Trust。毕竟同理心很重要,因为说到底,做模型的目标和做产品的目标有很多align的部分,也有很多不align的部分。模型人希望能力越强越好,产品人觉得用户需求越满足越好。所以天然有很多不align的部分。很重要的一点是,要有换位思考的能力。
你刚刚问元宝我们是怎么一步一步Co-Design的——一个很重要的细节是,当时我们派了后训练最强的骨干力量去帮元宝把后训练做好。当时我们自己的预训练还没准备好,但我们知道维护元宝这样的产品以及它的DAU,对我们接下来做模型非常非常重要,对创新的合作也非常重要。当时很多算法同学不理解,我需要很努力去解释。但现在看起来,这些努力都是值得的trade-off。这个动作让产品意识到,模型同学是真的在为产品着想——这对于我们之后的合作,包括Hy3 preview在元宝上成功上线,起到了非常重要的作用。当然有很多技术的部分可以探讨,但最难的反而是怎么建立信任、怎么换位思考。
01 做模型和产品的第一性原理是什么?
**汤道生** 顺雨,你加入腾讯前,我记得当时我问过你一些问题——为什么下半场会选择来腾讯?而且你认为AI下半场最重要的是什么? **姚顺雨** 先解释一下什么叫做“下半场”。这个词最近有点被滥用,这个概念是我去年在一个博客里提出来的。我的意思是,在去年之前AI已经发展了几十年,但更重要的是怎么去解决问题、寻找好的方法。现在很明显,方法论已经变得非常成熟,但寻找问题反而变得更困难了。 举个例子,过去我们发明AlphaGo,是为了下围棋。这个方法只适合下围棋或者各种棋类。你要做翻译,就得单独做一个模型,它只能做翻译,做不了别的。 但有了预训练和后训练之后,我们发现手里有了一把万能锤子,它能砸任何钉子。这是一个通用的方法论,可以解决各种各样的问题。反而更困难的是,怎么去寻找好的问题去解决。 加入腾讯很重要的一点是——这里有很多好的问题和产品,这一点在接下来会越来越重要。一方面,好的产品能解决第一个问题:预训练和后训练之后,到底要应用在什么地方产生价值。另一方面,环境也非常重要。如果没有好的环境,Agent就没办法做各种各样的事情。比如没有点外卖的工具,就没法点外卖。很多事情做不到。最重要的是context——无论是企业还是个人,就像我上次在AGI-Next说的,context越来越重要。因为模型越来越擅长把复杂的输入变成输出,很多时候你的竞争壁垒就在于你有没有最原始的输入——你知不知道这个人到底在干什么,你知不知道这个企业各种各样的信息。这一点,腾讯有很强的优势。 但这其实只是第二大的原因。最重要的原因是文化。我记得第一次跟你聊天,包括和其他总办老板聊天的时候,第一印象就是大家都非常诚实——哪里做得好哪里做得不好,非常直白,不会掩盖。这种坦诚是我最初的感觉。 第二,腾讯是一家基于trust而非metric运转的公司。这一点对做AI非常重要。我们的文化有非常low ego、非常solid的一面,对于长期做一个AI组织非常重要。包括对长期主义的坚持。 所以,AI下半场最重要的是什么?在我看来,我们应该在中国建立一个长期的、基于AGI的组织。今天的AI主要有三部分:首先是foundation的部分,把预训练和后训练最基础的东西做得非常solid;第二部分是产品,把这样的技术真正为人和社会创造价值;第三是frontier,探索新的研究范式和机会。最重要的是构建一个非常均衡的三角形组织。 对于做foundation来说,第一重要的是有充足的资源,第二是需要正确的做事方式,这和我刚才说的文化也是吻合的。对于产品来说,好的产品sense和做产品的人是至关重要的。第三个,在中国,我们今天所做的前沿探索还不够多,所以我希望能把frontier exploration的精神更多地注入到我们的组织中。 **汤道生** 你提到的沟通中感受到的真诚或务实的氛围,也是我经常从客户那里得到的反馈。我觉得我们的做事方式和产品理念,其实是比较实事求是的。毕竟AI赛道是长跑,有时候认知也很重要,做得好的和做得不好的我们也得认。但关键是,这是一个多维度的竞赛。现在模型有很多进步,产品也有越来越多的形态,不同的场景有不同的需求。未来还是非常可期的。02 Co-Design:模型和产品如何深度协同?
**汤道生**
你刚刚提到模型跟产品,产品可以说提供一个环境,里面要给模型提供context和上下文。我想问一个问题——我们平时开会时经常提到一个词叫Co-Design。怎么把产品和模型比较紧密地结合起来?尤其今天有这么多丰富的产品,从合作非常紧密的元宝这样的聊天机器人,到AI搜索,到企业里部署的智能客服、智能营销,再到最近很火的CodeBuddy、Workbuddy这类产品,它们对模型的依赖很深。你怎么思考Co-Design这个方式?
**姚顺雨**
有三点。
首先,Co-Design的前提是模型本身要做得非常solid,很多foundational的工作要做好。预训练是一个相对产品agnostic的事情,它做得非常solid,能提供非常强的foundation。预训练最大的特点是它是一个可泛化的学习过程,它的进步可以带给各种各样的下游任务持续的价值提升。后训练最重要的一点是要设立好正确的Eval。在中国有个不太好的倾向是大家喜欢刷榜,但更重要的是如何实事求是地基于产品、基于真正的应用,构造更加真实的Eval。
第二,要意识到“实用性”的价值大于刷榜的价值。我们在这方面做了大量工作,和各种各样的产品进行了深度Co-Design。Co-Design很关键的一点是要产生相互信任。我们做了大量工作来取得互信——怎么把产品数据用好,怎么回流,怎么把Eval做好。有很多细节,我就不赘述了。
第三,LLM时代和过去的AI最本质的区别就是泛化性。在LLM之前,做翻译产品只要把翻译数据做得特别好就行,做围棋程序也只需要把围棋数据准备好。但今天,即使你只想做一个Coding Agent,你会发现需要的不仅仅是Coding Agent的数据,还需要非常好的聊天能力、搜索能力、指令遵循能力、推理能力。它其实是一个非常复合的数据taxonomy。这需要对这个事情有一种taste。
这个事情的推论是,有很多产品的体系化地方会有比较大的优势。比如我们和元宝的Co-Design,使模型产生了很强的聊天和搜索能力,这样的能力又可以被迁移到ima和Workbuddy等其他产品。这些产品能提供不同的数据,但这些数据之间又可以相互泛化,形成一个像网络一样的体系。这一点的价值越来越重要。
**汤道生**
对,外部的榜也属于Eval的一种。那我们内部的Eval和外部的榜有什么区别?
**姚顺雨**
首先,benchmark还是有它的价值的,不是完全没有价值。只是这些榜非常容易overfitting。基于真实世界的数据对模型的研发是有帮助的。首先,你能发现模型很多底线问题——我们先发一个Preview模型,最主要的目的之一就是获得真实世界的反馈,修复各种各样榜单中没有发现的问题,这在正式版上有很大的改进。
第二点,你会对真实的Prompt distribution有更深的了解。举个例子,benchmark上面的题目可能都非常精确,有非常长的、具体的描述,一般来说是一个单纯的问题。但现实场景中,大家问的问题都比较模糊,可能就一两句话,还会不停地追问。这些场景能启发我们怎么更好地做训练。
第三点,我们甚至可以在这些产品上获得一些灵感,去推进现在还没有的榜单或领域。比如说,我们最近做了很多Context learning的工作,元宝的反馈给了我们很大的启发和帮助。所以产品和模型的互相成就,是越来越重要的一个AI话题。
**汤道生**
我记得早期做元宝的时候,还碰到过多轮遵循的问题。用户在使用产品时迭代Prompt的方式和benchmark确实有差异。真正在产品里大家使用所需要的能力,和benchmark确实有很大的差异。
**姚顺雨**
你问我这么多问题,我也问你一个问题。
**汤道生**
欢迎。
**姚顺雨**
我第一次跟你聊的时候,你跟我讲了很多过去的经历——从QQ空间、QQ秀的时代,一直到我小学时候最喜欢的产品,到QQ音乐、到云、到现在的元宝。跟你聊天很有意思,因为你做过各种各样的产品,to C也有、to B也有,远古时代的也有、最近AI时代的也有。我比较好奇,你做产品的第一性原理是什么?哪些经验和价值是不变的,哪些是变的?
**汤道生**
我觉得做产品最终还是本着用户有什么需求,我怎么去解决他的痛点,怎么给用户或客户创造价值。在不同的时代、甚至不同的行业,你做一个产品还是需要能给用户带来价值,他才会买单、才会使用。从PC互联网时代做空间,到移动时代做各种各样的产品和内容产品,再到产业互联网做云,我们都要花很多时间和精力去听客户的声音,尝试帮他们解决问题。底层的逻辑其实没有太大变化。
但确实,在PC互联网、移动互联网时代做产品,和今天在AI时代做产品,还是有蛮多不一样的地方。从范式的角度看,在AI时代以前,我们做产品很多时候是通过功能来满足用户需求——你作为产品提供方,想清楚提供什么样的能力,让用户通过某些菜单去选,好像是“预制菜”,你只能在上头点菜。
但在AI时代做产品,那种开放式的服务形态会带来很不一样的要求和挑战。简单的交互方式可能是自然语言、可能是语音,作为产品方你也不知道用户会问什么。所以要充分利用模型能力去理解用户需求,通过大模型的逻辑推理调用工具的能力,产品给模型提供各种各样可用的工具,来应对这种开放式的需求。这是和我们过去做产品很不一样的地方。
甚至包括你刚刚提到的Eval。以前做产品,有很清晰具体的功能描述,怎么设计、研发、测试,那个瀑布式流程也比较清晰。但做AI产品,最大的变化是整个流程可能都要重新设计。尤其今年,大部分代码都由AI生成,工程师可能会花更多时间做架构设计,把写代码的工作交给AI,然后定期去指导和修正。测试也要左移,更前置地想清楚各种案例的Eval和环境,对开放式答案的要求,甚至alignment怎么和用户需要的风格对齐。今天做产品,要求的能力更全面了。
**姚顺雨**
更难了。
**汤道生**
问你一下混元3。大家都在说Hy3 preview是你的腾讯首秀,具体混元3做了什么改变,能给大家介绍一下吗?
**姚顺雨**
其实没什么秘密。今天做大模型从某种程度来说是比较trivial的事情——我们应该把Infrastructure做好,把数据做好,算法的部分反而是比较简单的。主要有几个点。
第一,我们把Infrastructure重建了,无论是预训练还是强化学习。第二,我们把数据和Eval做了很大的改变——如何定义更真实的问题,如何丰富数据的taxonomy,如何提高数据质量,这是一个永无止境的追求。第三,很多决策其实包括怎么招人、怎么设立模型的节奏、怎么每天做很多decision,要考虑很多trade-off。没有一个很清晰的公式,是一个很taste-driven的事情。
我也很好奇问你一个问题。你刚刚跟我讨论Co-Design这个概念,我想知道你对Co-Design是怎么想的?你觉得哪些事是模型该做的,哪些是产品该做的?
**汤道生**
我觉得Co-Design在不同阶段是在变化的。过去这两年,变化某种程度上是随着模型能力的升级而变化的,当然整个行业、市场和用户需求的变化也会带来我们两边——模型和产品——需要更好地去满足。
一个比较深的感受是怎么去对齐。我们一起做产品、做对齐会议时,有很多不同的决策。产品可能要针对某个方向去解决一些问题,模型到底怎么做才能满足这个需求?但你要回到模型需要数据——数据该怎么标注,到什么颗粒度,什么是好的标注、什么是不好的标注?有些地方要奖励,有些地方要惩罚。还有Eval和评测——如果产品认为好的产品体验,评测却不认同,那大家做出来的产品就会不一致。
所以Co-Design给我的感觉更多是,在项目组里,不同的角色参与到产品设计中,确定一些产品的目标方向,怎么让多个角色能对一些开放式问题有比较好的对齐。如果没有做到这种对齐,你会发现产品的行为不可预测,甚至会有随机性,因为模型训练的过程可能也被混淆了。这是我这两年跟产品团队和模型团队做Co-Design比较深的感受。你觉得呢?
**姚顺雨**
就像我刚刚说的,首先最难的一点是建立Trust。毕竟同理心很重要,因为说到底,做模型的目标和做产品的目标有很多align的部分,也有很多不align的部分。模型人希望能力越强越好,产品人觉得用户需求越满足越好。所以天然有很多不align的部分。很重要的一点是,要有换位思考的能力。
你刚刚问元宝我们是怎么一步一步Co-Design的——一个很重要的细节是,当时我们派了后训练最强的骨干力量去帮元宝把后训练做好。当时我们自己的预训练还没准备好,但我们知道维护元宝这样的产品以及它的DAU,对我们接下来做模型非常非常重要,对创新的合作也非常重要。当时很多算法同学不理解,我需要很努力去解释。但现在看起来,这些努力都是值得的trade-off。这个动作让产品意识到,模型同学是真的在为产品着想——这对于我们之后的合作,包括Hy3 preview在元宝上成功上线,起到了非常重要的作用。当然有很多技术的部分可以探讨,但最难的反而是怎么建立信任、怎么换位思考。
03 Agent:技术怎么走、产业怎么落地?
**汤道生** 非常认同。换个话题,你是ReAct架构的提出者,博士研究也是围绕语言智能体展开的。你几年前的一些观点到今天兑现了吗?比如哪些? **姚顺雨** 那天我挺感慨的,重新读了自己的博士论文,感觉又回到了一个很远古的时代。我的博士论文的title叫“Language Agent: from next token prediction to digital automation”,是2019年的。 **汤道生** 7年前。 **姚顺雨** 那时候literally就是GPT2的时代,它只能做next token prediction,而且产生一段话不太连续,有很多毛刺。当时人们很难想象它有一天能成为改变世界的力量。大家做的研究稍微有点想象力,比如“中国首都是?”——如果做next token prediction,它会回答“北京”。大家觉得这是一个有knowledge的事情,能做到这一点就很开心了,觉得这个技术很有意思。 当时我的想象力比较狂野。我觉得GPT是一个非常优美的东西——吐下一个token是一个非常极简且通用的事。我觉得它有一天潜力不仅仅在于吐出下一个token,而在于把这个世界上所有的事情全部automate。当时我想得还不够大,想的是digital automation,但现在看来也有可能是digital and physical automation。 博士期间我主要做两部分。第一部分是如何建立一个Agent方法论,如何把一个next token prediction的机器变成一个Agent、一个自动化的机器。最重要的工作可能是你提到的ReAct。记得2022年7月的某一天晚上,当我第一次把PaLM 2的API和当时手写的一个Wikipedia API连在一起,它第一次能基于网页回答问题,并且做多轮交互的时候,我感觉就像微弱的电灯突然亮了一样。据我所知,那是人类第一次把LLM和互联网连在一起做多轮交互。当时我的感觉是,这个可能在5年或10年后会改变世界,但可能比我想象的还要更快。 另一部分工作是,怎么定义Digital automation的任务。比如WebShop是第一个基于互联网的Web Agent task,包括InterCode和SWE-bench是最早的Coding Agent任务。现在看来,Agent技术最重要的两个部分确实是Web Agent和Coding Agent。 那天我在群里跟大家聊天,看我博士论文的结尾,是在2024年写的future work:第一是train models for Agent,第二是safe and robust deployment,第三是scientific discovery,第四是怎么去help human。我很感慨,我现在很幸运,确实在做当时列的那些future direction。 **汤道生** 太厉害了,都一一看到整个行业这些方向在推进。 **姚顺雨** 可能想的还是不够大。我觉得已经觉得自己想得够大了,但可能还是不够大。 **汤道生** 技术的发展往往超乎我们的预期。智能体今天大家都说需要消耗很多token,token的调用量很大。对于混元做下一代模型研发,你觉得什么是你的侧重,有哪些地方比较重要? **姚顺雨** 毫无疑问,今天Agent或者Coding Agent有点像预训练一样,是不得不做的事情,是最基础的能力。我个人觉得Coding Agent非常本质,有很多原因。一个重要的原因是,它是一个有点像图灵完备的事情——当你有能力去控制自己的file system,当你有一个container的时候,其实你是一个完整的system。 今天Agent毫无疑问是每一家模型发力的重点。我们的方法可能会有几个区别:第一,即使今天Coding已经是最重要的事情,但我们还是会强调体系的全面化。要把Coding做好,其实需要远远不止Coding的数据,也需要聊天、推理等各种各样的东西——因为大模型最重要的点是泛化性。第二,产品的作用越来越重要,如何利用好线上回流,是每个模型厂商都在应对和思考的问题。这就让刚刚积累的Co-Design经验变得非常重要。第三,我觉得还需要更多想象力——无论是技术演进、产品演进,还是下一个范式演进,我们需要做一些探索性的、甚至不确定性的工作。 **汤道生** 从产品侧看,越来越多的人有token焦虑——token成本爆发式增长。很多客户甚至用户身边的同事也在紧盯着积分消耗或token消耗。怎么让我们的模型在解决某个问题或完成某个任务时,token效率更高?我之前做过一些任务,有些方向明知道走不下去,但模型可能还会试,试完之后走不下去再试下一个。这里面有什么可以optimize的地方,让token整体使用效率更高? **姚顺雨** 在中国讨论性价比,很多人讨论模型架构,但其实它是一个很复杂的体系。最重要的是,首先是你的performance。很多人跟我说,最后发现用OPUS这样的模型比用更差的模型更省钱——因为它更早把事情做对了,也省了人的精力。所以最重要的事情是performance——如果你的performance好,性价比才是最关键的。 尤其今年,很多简单任务的robustness会变得更加重要。一次把相对简单的任务做对,可能是性价比更关键的部分,而不仅仅是模型架构。第二部分就是成本本身——性价比的第一是性能,如果性能不好,性价比就无从谈起。第二点是成本。中国在成本方面是领先于世界的,我们做了大量工作来优化成本。成本最重要的事情可能是,怎么用一个更小的模型把更高价值的任务做好。在此基础上架构创新,包括长文管理和脚手架,有很多需要做的事情。如果我们做一个相对较小的模型,但能比肩大模型的性能,并且在大部分任务上做很强的robustness——这可能在很多长程任务上提升一两个百分点,在今天中国可能更有价值。 我很好奇,您觉得Agent是什么时候让你意识到它是一个新的产品的机会?现在的认知是什么?您觉得我们现在离一个好用的Agent,bottleneck在哪里? **汤道生** 我们做的Agent,针对不同场景有不同的产品形态。在Agent设计上,很大程度上是发挥好模型的能力。模型在迭代,它能力越强,Agent需要做的工作就越少。我们好几个产品在过去这段时间,随着模型能力加强,可以把产品和Agent做得更简化,更多地为模型提供不同的工具,创造更多的skills,让模型能更高效地完成任务。给模型提供更多的记忆——用户过去的使用习惯、能提取出来的用户偏好信息,作为上下文。在Coding环境中,有相关的context给到模型。在Workbuddy里办公协作做个PPT,大家关注的内容或者该给模型的context也会不一样。 所以做不同的Agent,更重要的是了解场景下什么内容、什么信息是重要的、relevant的,能够和模型配合好,让模型有它需要的信息,同时也发挥它的能力。 **姚顺雨** 最近我们确实推出了一些像Workbuddy这样口碑不错的产品,背后有很多小团队在快速迭代。我挺好奇,相对于传统的产品研发,在新的Agent时代,产品团队在研发和组织管理上发生了哪些变化?你的思考是什么? **汤道生** 前阵子我在帮Workbuddy做一个组织发文。我看了一下他们那个非常扁平化的组织,和我们过去的其他产品组织架构有很大差异。更多是小团队,三个人五个人,围绕某一个领域做攻坚,而且有很多试验在里面。还要支持Infra做实验,让不同的小分队可以去探索、验证。因为大部分试验拿不到正向反馈,我们也要包容团队去试错。通过大量试验去提炼出对用户流程、对想要的结果有正向帮助的要素——这是今天做Agent、做原生AI产品,组织形态需要能够比较好地支撑的。 另外,原来很多工程师有很多时间花在写代码上。但今天毫无疑问,这些工作可以交给AI了。所以我们会看到更多角色的融合——大家都是产品经理,都要了解透彻用户需求,设计出我们想要的产品形态。每个工程师更像一个有想法的leader,驱动多个Coding Agent,针对我们想要的产品需求去做研发、开发。同时要参与评测、测试,比较前置地用好AI能力,把这些质量保证工作和对齐工作做到前面来。04 行业研判:AI新的机会在哪里?
**汤道生** 我想再问一个大家讨论比较多的问题。很多人会说腾讯慢,说在AI上面我们没有及时抓住一些机会。你觉得我们真的慢了吗?到底下半场是什么?你能再多说一下吗? **姚顺雨** 感觉应该是我问你的问题。 **汤道生** 哈哈。 **姚顺雨** 我觉得AI今天有两个重要判断。第一个,我们认为AI是个短期游戏还是长期游戏?在硅谷蔓延着很多情绪——1-2年后所有人都要失业,AI要取代所有人的工作,要赶快赚2年钱退休。但很显然,我们的判断是AI是一个长期游戏。AI才刚刚开始,下半场才刚刚开始。我不认为ChatGPT和ClaudeCode会是唯一的super App——那是一个非常灰暗的世界。我觉得肯定会有源源不断的新机会诞生。可能今天就像是70年代PC刚刚产生的时候,还有很多很多事情需要做。 第二个判断,它会是一个更线性的游戏还是更多元的游戏?过去几年大家能看到的是pre-training、post training、然后Agent、Coding Agent,似乎有一条非常清晰的主线,所有人都在做一样的事情,都在copy——这也是非常灰暗的。但未来到底是变得更单一还是更多元?我的个人看法是,会变得更多元。毫无疑问,Coding Agent的生产力会变得更加重要,它才刚刚开始。这个世界还有很多空间没有被填满——多模态、具身智能,很多很多新的事情都在发生,或者刚刚发生。从这个角度来说,如果我们认为下半场刚刚开始,那可能确实不是完结。 过去模型、产品做了很多探索,走了很多弯路,这是正常的——你如果没有做过一件事,第一次做肯定有曲折。但可能更重要的是,能不能诚实面对自己,能不能be real,能不能看到feedback然后去改变,能不能保持耐心。这是下半场最重要的事情。 **汤道生** 大家对于腾讯经常喜欢挑某一个点来批评。当然我觉得我们也很欢迎大家给我们提更高的要求。我们是一个非常多的业态的公司,有很多产品分布在很多赛道,也有很多团队在推进不同的项目、不同的事情。所以在这样一个复杂的组织里,有些地方可能我们做得快了,有些地方做得慢了,有些地方可能会失败,在探索。我觉得这些提醒都非常好——确实有些地方我们可以做得更好。但就像你说的,这是一个长跑,是一个马拉松。腾讯还是有非常丰富的场景。 就你一开始提到的,选择腾讯是因为AI需要Context,模型需要很多上下文。腾讯过去多年在不同产品、不同赛道的积累,其实都可以针对每一个场景为模型提供有用的信息,提供这些Context来发挥价值。 在这样一个长跑中,我相信模型会不断迭代,用户的需求也在不断变化,也会有新的产品形态出现。比如今年年初对Agent这一波热潮,我们的反应也比较快。同时,也有像Workbuddy这样的智能体产品,是几年前就开始做的产品——原来做Coding、Codebuddy,慢慢看到非程序员也有很强的需求,我们也能比较快地应对。今天也听到很多客户对我们不同产品怎么组合起来,有非常高的期待。 所以我们正在长跑中,也请各位多给我们提醒、多给我们建议,也多使用我们的产品给我们正向的反馈。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。