2024年AI客服选车助手LLM评测
摘要
针对用户表达多样、交互僵化等问题,基于大语言模型构建多智能体选车助手,包含NLG和NLU
智能客服行业近年快速迭代,但用户频繁遭遇“答非所问”的痛点:例如询问优惠券,系统却自顾自推荐车型,体验极为割裂。本文剖析货拉拉如何借助大模型技术,将“选车助手”这一看似简单的场景,打磨出高转化率的实操方案。
业务背景与挑战
客服咨询场景可拆为两类:FAQ(用户提问、系统应答)与任务型(逐步引导完成操作,如取消订单、开发票)。AI客服的本质是通过人工智能实现效率与质量提升,同时压缩运营成本。选车助手正是任务型咨询中的典型子场景,其难点在于用户意图多变、货物信息非结构化。
选车助手现状
为精准推荐车型,请配合回答几个问题:您货物的重量是多少?可选择下方近似选项,或手动输入如“0.5吨”“1吨”等
(此处包含货物重量选项列表)
仅剩2个问题!请根据货物长度选择以下选项,或手动输入如“4米”。若有多件货物,只需填写最长件长度(例如床长2米)。注意:长度指物品平放于车厢内从车头到车尾的尺寸;不可倒放的物品(如冰箱),高度不计入长度。
(此处包含货物长度选项列表)
最后一问!请选择要运输的物品类型;若未列出,可输入“水果”“装修建材”等
(此处包含物品类型选项列表)
(以下是用户与助手的真实对话案例,暴露助手无法理解用户问题的糟糕体验)
典型问题一目了然:
1. 仅支持预设类别,货物信息不全,车型推荐失准。
2. 纯点选交互僵硬,无法处理“一张桌子、一台七十寸电视”等复合表达。
3. 回复冗长啰嗦,缺乏人机自然对话感。
4. 用户一旦偏离主流程(如询问优惠),机器人直接“死机”,体验断崖下跌。
技术选型与路线
市面主流商业方案偏保守——重可控、轻灵活。客服需先绘制复杂流程图、编写固定规则,系统严格照本宣科。用户路径稍有偏移,体验崩溃,不得不转人工,成本反而攀升。
过去一年,大模型与智能体技术快速进化。货拉拉内部自研货运大模型,为选车助手的彻底重构注入底气。
系统架构设计
整套选车助手系统自顶向下分为四层:
- 交互层:覆盖Web、App、小程序,全渠道接入。
- 应用层:IM后台、WebSocket网关,负责通信链路。
- 逻辑层:DM对话机器人系统,管理会话与状态。
- 算法层:核心大脑,基于Multi-Agent框架,配合内部机器学习平台(海豚平台)管理模型。
图1 客服选车助手系统框架图
算法方案详解
线上数据分析显示:用户行为完全不可控。他不会按预设流程走,常插入“有优惠券吗?”(FAQ)或“今天天气怎么样?”(闲聊)。如何在推进主流程的同时,自然地将话题拉回,是核心难点。此外,货物类型多样、用户描述方式千奇百怪,精准理解挑战极大。
我们选择大模型破局,因其具备三大核心能力:强理解力(精准定位多种表述)、智能生成力(回复更拟人、体验更优)、跨语言能力(支持多语种对话)。
LLM-based多智能体系统
为兼顾大模型Agent的灵活性与可控性,我们采用务实路线:通过SOP(标准作业程序)分解任务,实现对Agent的细粒度控制,确保方案易于落地。
图2 LLM-based多智能体系统图
单一智能体难以应对复杂任务,故拆分为两个:NLG Agent负责应答、工具调用与流程引导;NLU Agent专攻对话中货物信息的提取。
NLG Agent
收到用户问题后,首先判断问题类型,再决定响应策略。示例见图3。它会与Memory、Tools及NLU Agent协同工作。
图3 NLG Agent示例
Memory
图4 Memory模块图
Memory存储三类先验知识:
- 通用知识库:用户提及“电动车”,系统自动补全典型尺寸重量,无需反复追问。
- FAQs:用户问“客服电话”,直接返回标准答案。
- 长短记忆:对话历史,让Agent记住上一轮上下文,提升配合流畅度。
Tools
图5 Tools模块图
Tools负责对接外部系统,包括:
- 车型推荐接口:基于NLU Agent收集的完整信息,输出精准推荐。
- 敏感词过滤接口:安全红线,必备组件。
- 业务SOP:控制对话节奏,避免在闲聊上过度消耗。
- 流程引导:综合所有信息,决定下一步是回复FAQ还是继续采集货物信息。
NLU Agent
这是最关键的模块。选车助手的核心任务是根据货物信息匹配车型,但用户表达极度多样:
- “我要拉一个箱子,长1米”(仅部分信息)
- “我要拉20个1m*1m*1m的箱子”(多个同规格物品)
- “我要拉1.8m的床和冰箱”(多个不同物品)
- “长1.8m,重量不清楚”(信息模糊)
从中精准提取信息是难点。传统NER方法需要大量标注样本、训练周期长,且容易在实体嵌套场景出错。
我们基于自研货运大模型,初始基线在内部测试集上仅50%准确率。经过一轮prompt调优,最高达到60%。分析bad case发现,模型对“不清楚多重”、“外机700×400×500”等表述处理困难。为此引入RAG(检索增强生成)技术。
图6 RAG基本流程图
召回采用多路策略:
- 向量召回:寻找语义相似的问法,如“1.5长 70cm高 74宽”,系统可常识补全为“长1.5米,宽74厘米,高70厘米”。
- 货物名称召回:根据“电视”、“冰箱”等具体名称,匹配同类货物的典型规格,如“60寸液晶电视”。
通过多路召回RAG,准确率直接跃升至80%。
此外,在第n轮对话时,将前一轮(n-1轮)已收集的信息作为上下文输入,效果显著提升。再结合硬编码规则处理固定句式,最终内部测试集上的货物信息识别准确率稳定达到90%。
表1 迭代效果对比展示
效果展示
示例1
(以下是新系统的真实对话案例)
用户询问优惠券,助手不仅正确回答,还能自然拉回主流程(“请问桌子的长度、重量?”)。用户更正重量后,助手准确理解上下文,直接更新推荐车型(从小面换为中面)。
效果分析:
- 流程引导:回答后主动回归主线。
- 拟人化回复:简洁、自然。
- 上下文理解:用户更正信息后,推荐实时刷新。
示例2
(另一个真实对话案例)
用户说“一个桌子,一个七十寸的电视机”,助手直接追问桌子信息,对七十寸电视的尺寸和重量已具备常识。用户表示“重量不清楚”,模型自动推理出桌子大致重量,无需再次追问。
效果分析:
- 多物品信息理解:能处理“一个桌子、一个电视”等复合输入。
- 具备常识:七十寸电视不用再问重量,桌子重量可自动推断。
总结与下一步
这是大模型在货拉拉业务场景的一次务实落地。面对具体业务的实际挑战,我们摒弃炫技,基于自研货运大模型与多智能体架构,稳扎稳打地打造出兼具“人情味”和“懂业务”的AI客服选车助手。未来将持续迭代优化,并将这套能力复制到更多客服子场景中。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。