技术资讯
大模型时代业务探索:对话AI科学家何晓冬的实战经验
摘要
大模型技术进入关键节点,存在普适赋能与标志性产品两种落地路径。数字人技术已跨越恐
先听我聊聊核心感受。非常荣幸能与何晓冬博士进行了一次深入的交流,他在大模型、多模态智能等领域深耕超过二十年,既是世界级的科学家,也是从一线研发一路走来的实践者。这次对话围绕大模型技术展望、AI业务探索以及个人发展路径展开,信息量很大。以下是这次对话的精华整理,保留了核心逻辑与关键洞见。
01 大模型技术展望
1. 大模型在过去一年多对业务和技术产生了巨大影响,您对此的体会和未来期待是什么?
可以说,大模型的发展已经进入了一个关键节点。从2022年11月底ChatGPT问世到现在,已经过去了一年半。我们在这一领域也在快速建立自己的优势,言犀版本从1.0到2.0,即将发布的3.0也来到了千亿参数规模。这条技术潮流是清晰且不可逆转的,必须扎实推进。 大模型的应用落地,大致有两种路径。一种是“水涨船高”式的普适赋能,将能力开放给整个集团,比如客服、金融、风控等场景都能受益。但难点在于价值量化,尤其在当前外部价格战激烈的背景下。不过从内部看,这是关于安全与效率的关键能力,尤其是金融领域,核心机密信息不可能外传。 另一种路径是推出具有标志性的产品。技术若想定义一个时代,最终一定会催生跨越式的产品,就像iPhone之于移动互联网。AI时代的标志性产品还在探索中。虽然我们在业内已有一定影响力,但这可能只是早期阶段,真正的碘伏性产品还在路上。 从技术角度观察,突破到产品出圈通常需要三到五年。ChatGPT在2022年出现,而GPT-3在2020年发布,达到1750亿参数;Transformer论文则在2017年就已提出。Midjourney是2023年做文生图,但早期学术论文的突破同样是2017、2018年的事。技术发展的周期性很强,未来或许会加速。眼界要放宽,三五年后很可能迎来新的爆发。 ——对,您当年提出的AttnGAN也是标志性工作。 对,那时我们做了一个画鸟的模型,也是2017年的工作,2018年发表。所以周期性确实存在,鼓励大家放开眼界,现在有什么,三五年后可能出现爆发。 技术的特点就是永远有新机会。 确实。回想五年前,2018年时如日中天的CV四小龙,现在又有了新的大模型四小龙。技术很难被垄断,它一直在滚动向前。跟不上,别人就会走到前面去。 这也是AI的魅力所在。 是魅力,所以年轻人永远有机会。2. 之前有老师来交流时,我曾设想结合Transformer来改进Diffusion,当时您觉得想法过于简单,但后来Sora验证了在数据量足够时这条路确实可行。面对工业界越来越倾向于这种“暴力美学”方法,您怎么看?
从个人角度,我并不反对“暴力美学”。某种意义上,它确实是一种美学。机器的智能和人类作为生物体的智能发展路径不同。暴力美学的基础逻辑和第一性原理,并不是暴力本身,而是当前时代最高效、最廉价的资源。 当前,最便宜的资源是数据和算力。尽管大家常抱怨数据不够、算力难买,但实际上,这两个资源依然是成本最低的。算力按摩尔定律每一年半翻番、成本减半,很少有商品能做到指数级成本下降,这种趋势已持续几十年,未来十年大概率还会继续。数据也基本按指数增长,成本相应指数下降。 如果你的算法和模型能够“吃下”这些资源,那么成功的概率会很大。这本质上是一种工业思路,与个人的聪明才智关系不大。工业界就是这样看待问题的。 举例,大家都在用电动车,之前是油车。油车的兴起是因为地球上大量石油。如果换一个没有石油的星球,即使发明了油车也无法使用。电动车的发展同样是因为技术进步和电池的改进,而非某个发明者的个人能力。 ——大家担心,这种趋势会不会让算法同学能做的事情越来越少? 关键在于聚焦在具体的应用和问题上,泛泛的担心没有太大用处。通过具体的应用场景,可以展示NLP的强大功能和实际效果,这是未来需要继续努力的方向。从产品角度反观技术领域,确实能找到很多突破点。3. 最近有一个趋势,大家似乎不再特别注重论文发表,许多先进工作以技术报告形式发布。您如何看待当今技术论文的价值?
论文的最大价值在于传播思想和知识。这也是为什么我们更关注论文的创新性,而非发表在哪个期刊。创新性反映了论文的传播、被接受和引用情况。所以,论文价值依然存在,不论通过搜索引擎还是其他平台,大家依然会阅读和引用。 论文在技术界是一个标志、一个里程碑。有影响力的论文比发表在哪里更重要。真正重要的是论文中蕴含的技术和领先思想,以及它的影响力。即便只是一篇放在网上的论文,只要影响力足够大,大家也会去阅读和跟进。 当然,顶级会议和期刊的论文依然重要,因为不是每个人都能在那里发表。但你会发现,像CVPR这样的顶级会议每年论文数量极其庞大,真正能脱颖而出的并不多。比如被大量引用的论文,一年可能也就一百篇左右。 这也反映了技术输出形式的变化:不一定非要严格遵循传统投稿流程。技术报告、产品发布等同样具有价值,只要大家能接受这些形式,它们同样具备传播价值。例如ChatGPT的发布,它就是一个产品,却迅速被全世界使用和认可。 ——学术界与工业界正变得越来越紧密,边界可能也没那么清晰了。 这是好事。相当于每个人都可以把自己的最好想法拿出来,接受整个世界的检验。论文本身依然有专业的一面,它有特定规范,保证严谨性、可传承性,引用和参考有据可循。这与写博客不同,还是非常重要的。02 何老师谈AI业务探索
1. 我们团队有多个技术方向,但做单点业务时整体感知不强。您如何看待多技术团队的协作?
说实话,大家的能力可能还不够多。任何一个产业要形成完整的产业链,一定是多种能力组合的。手机产业不仅需要通信技术,还需要相机、传感器、定位系统等。现代工业需要把多种能力组合在一起,才能产生完整的产品。 应该以产品为导向,反过来看需要哪些能力。希望工作对社会产生影响,往往以产品形态呈现。以产品为牵引,可以发现自己在哪些方面需提升。例如,早期的语音合成技术只追求自然度,但现在需要在不同场景下传递不同情绪,这就提出了新的技术挑战。 每个团队成员可能只负责一小块,但从产品角度会发现很多改进空间。语音合成不仅要让用户听得清楚,还要传递情绪。数字人技术也是如此,需要更饱满、自然的表达。 从产品角度出发,可以发现许多新问题和挑战,这些往往具有学术意义。工业界的需求可以推动学术界研究,反过来促进技术进步。因此,从产品角度反思自己的技术领域,能找到更多突破点。2. 最近数字人“采销东哥”上了热搜,您能谈谈数字人技术对业务的提升吗?
当然。NLP在数字人技术中扮演了重要角色。在“采销东哥”与用户交互过程中,如何回答问题就涉及NLP技术。“采销东哥”的成功是一个开创性节点。在此之前,很多公司都在做数字人,但大多是展示demo,没有特别惊艳的地方。 “采销东哥”在感染力和表现力上达到了新高度,让观众非常惊讶和兴奋。4月16日和18日的几场直播中,观众反馈非常好,大家都没想到数字分身可以如此逼真,各种小动作和表达都很自然。这让整个业界迅速接受了数字人技术。 为什么重要?因为在人工智能领域常提到“恐怖谷效应”。当机器人或数字人接近95%的人类相似度时,会让人感到不舒服。但若能跨过恐怖谷,数字人达到更高逼真度,人们就会开始接受它,觉得可以正常交流互动,从而产生商业效应。 “采销东哥”成功跨过了恐怖谷效应。无论是第一场还是后续几场直播,效果都非常好,反馈积极。这标志着行业的一个重要里程碑。多年后回头看,这很可能被视为数字人商业化的重要节点。 ——确实,“采销东哥”是一个标志性事件。 是的。有了开创性示范,更多企业总裁在618期间找到我们,希望使用数字人技术。很多总裁愿意为产品带货,但由于时间或语言障碍无法亲自参与,通过数字分身这些得到了很好解决。618期间,总裁数字人直播取得了非常好的效果,带来了巨量销售额。这说明商家和用户都在迅速接受这种新形态。 接下来,希望与NLP团队一起,进一步提升数字人的自然度和交互能力。不仅仅是简单的问答交互,而是像董宇辉或罗永浩那样,有个性、有幽默感、有文采的深度交互。通过更自然、更丰富的互动,可以传递情绪、认知,甚至是世界观和人生观。 ——这是一个全新的AI展示方式,作为算法能参与其中也很激动。 好好好,还是靠你们年轻一代把技术一个个落实。3. 数字人领域现在技术百花齐放,像Wa v2Lip、NeRF、MuseTalk,国外也有HeyGen。您觉得落地这些技术的难点在哪?
这些技术确实代表了当前数字人技术的主要路线。NeRF的出发点是用神经网络重建光场来呈现形象,其他视频生成类数字人技术则通过直接渲染,可能中间涉及三维建模和二维渲染等。 简单来说,当前技术环境中,各种基础技术都在不断发展。无论是深度学习还是其他路线,选择方向和目标非常重要。通用的计算资源和专用的数字视频生成技术在选择路线和实际应用上会有所不同。 数字人技术的难点不仅在于技术本身,还在于如何将这些技术转化为综合性产品体验。学术界可能更关注单一技术的突破,比如声音合成或图像对齐,但在工业界需要从更高层次看待,确保整体体验足够好。 要实现极致用户体验,需要在多个方面做到最好,比如表现力、灵活性、空间关系处理等,同时还要考虑成本,包括计算成本、带宽成本和渲染时间等。这些都是技术上的挑战,最终需要综合成成熟产品。 ——相比单点技术,产品化带来更大挑战。 是的。就像iPhone一样,用户不会只看中某一个功能,而是需要整体完整体验。在实验室中单点技术突破当然重要,但把这些技术组合成成熟产品,让每个人都能使用,才是最终目标。 从产品角度反推技术也是一种有效方法。比如设想一个理想的产品,然后思考需要哪些技术来实现它,这样能更清晰地确定每个技术点的目标。 ——这种从产品到技术的反推很值得学习,产品目标一定可以更高。 比如,可以设想一个聊天机器人,不仅能和你谈论人生观、世界观、价值观,还能深入交流文化背景和思想理念。这种更深度的交流体验才是我们追求的目标。 ——哪天能做出像何老师这样的分身,我今天过来和分身交流就行,您去忙别的。 当然,这也涉及许多治理和伦理问题,但从技术角度看,确实是非常令人激动的方向。智能技术是人类三大终极问题之一,探索智能的本质和来源是一个终极难题。4. 对言犀团队未来三年,有什么展望或目标愿景吗?
言犀团队在过去几年不断进步,逐渐在行业内树立了良好声誉,这些都是通过一个个扎实产品展示出来的。展望未来三年,希望我们真正成为行业内最好的AI团队。要通过卓越的产品和技术说话,成为第一和最好的团队。 在AI领域虽然有很多PR宣传,但真正有价值的地方还是基础核心技术。我们需要在这方面拥有独特技术优势。同时,还要推出真正碘伏性或行业引领性的产品。这两个方面是团队的立足之本。如果能在这两方面做到最好、做到极致,就能成为行业最顶尖的AI团队。 不应该把时间浪费在低价值的二次开发或短期集成项目上,这些只是暂时的泡沫,很快就会消失。希望团队聚焦在核心技术和碘伏性产品上,快速迭代,形成强大的技术和产品优势。03 何老师聊个人发展
1. 在微软从事科研工作时,工作方式是什么样的?
在微软工作时,方式更偏向学术。首先阅读大量论文并进行学术交流,然后提出自己的想法并进行实验分析。完成这些步骤后,与微软的产品团队沟通,看能否将新技术真正应用到业务中。 举个例子,当年我们开发了DSSM(深度结构语义模型)。完成后与微软的搜索团队和广告团队沟通,最终成功落地。这是从最初想法到最终应用的完整过程。不仅要读论文、参加学术交流,还要进行实验和分析,最后把成果发表,并与微软各个部门合作,确保技术能在工业上实际应用,而不仅仅是发表一篇论文。 ——既要兼顾学术研究,又要注重实际应用。 对,正是如此。2. 平时如何平衡个人工作和生活?感觉有时很难做到。
其实也没有特别的平衡之道。首先,得对自己做的事情有真正的投入和热情。如果对工作有兴趣,就不会太在意这是工作时间还是非工作时间。乔布斯曾说过,不可能每一分钟都热爱自己的工作,但如果连续三个月都不喜欢自己在做的事情,可能需要考虑换工作或环境。意思是,不可能永远只做最喜欢的事情,但也不能长时间做不喜欢的事。如果长时间做不喜欢的事情,就需要反思是否要改变环境或改变自己。3. 取得今天这样的成就,过去哪些事情或品质对你特别重要?
这可能很难一概而论,经历也比较多。但有几点很重要。首先,设定一个高目标并聚焦在真正有影响力的事情上。可以事先想象项目成功后的情景,如果成功后不会特别兴奋,就不要做了,这样能筛选掉很多无用的项目。 其次,要有一个志同道合的朋友圈和合作伙伴。在工作过程中肯定会遇到低潮,互相鼓励非常重要,特别是在前沿科技创新领域,没有定式。某种程度上像打猎,有人善于发现猎物,有人枪法好,有人会看天气。每个人都有不同特长,互相合作能更好地解决问题。 最后,关注当前时代的趋势。为什么说“暴力美学”成功了?因为互联网和半导体的发展,数据成为这个时代最充沛的资源。选择算法这个项目最能符合时代趋势,成功的概率更大。 ——总结起来就是热爱、合作、高目标和关注时代趋势。非常感谢何老师的精彩分享。来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。