技术资讯人工智能

2024年AI客服选车助手LLM评测

2026-06-01

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

针对用户表达多样、交互僵化等问题，基于大语言模型构建多智能体选车助手，包含NLG和NLU

智能客服行业近年快速迭代，但用户频繁遭遇“答非所问”的痛点：例如询问优惠券，系统却自顾自推荐车型，体验极为割裂。本文剖析货拉拉如何借助大模型技术，将“选车助手”这一看似简单的场景，打磨出高转化率的实操方案。

业务背景与挑战

客服咨询场景可拆为两类：FAQ（用户提问、系统应答）与任务型（逐步引导完成操作，如取消订单、开发票）。AI客服的本质是通过人工智能实现效率与质量提升，同时压缩运营成本。选车助手正是任务型咨询中的典型子场景，其难点在于用户意图多变、货物信息非结构化。

选车助手现状

为精准推荐车型，请配合回答几个问题：您货物的重量是多少？可选择下方近似选项，或手动输入如“0.5吨”“1吨”等

（此处包含货物重量选项列表）

仅剩2个问题！请根据货物长度选择以下选项，或手动输入如“4米”。若有多件货物，只需填写最长件长度（例如床长2米）。注意：长度指物品平放于车厢内从车头到车尾的尺寸；不可倒放的物品（如冰箱），高度不计入长度。

（此处包含货物长度选项列表）

最后一问！请选择要运输的物品类型；若未列出，可输入“水果”“装修建材”等

（此处包含物品类型选项列表）

（以下是用户与助手的真实对话案例，暴露助手无法理解用户问题的糟糕体验）

典型问题一目了然：

1. 仅支持预设类别，货物信息不全，车型推荐失准。

2. 纯点选交互僵硬，无法处理“一张桌子、一台七十寸电视”等复合表达。

3. 回复冗长啰嗦，缺乏人机自然对话感。

4. 用户一旦偏离主流程（如询问优惠），机器人直接“死机”，体验断崖下跌。

技术选型与路线

市面主流商业方案偏保守——重可控、轻灵活。客服需先绘制复杂流程图、编写固定规则，系统严格照本宣科。用户路径稍有偏移，体验崩溃，不得不转人工，成本反而攀升。

过去一年，大模型与智能体技术快速进化。货拉拉内部自研货运大模型，为选车助手的彻底重构注入底气。

系统架构设计

整套选车助手系统自顶向下分为四层：

交互层：覆盖Web、App、小程序，全渠道接入。
应用层：IM后台、WebSocket网关，负责通信链路。
逻辑层：DM对话机器人系统，管理会话与状态。
算法层：核心大脑，基于Multi-Agent框架，配合内部机器学习平台（海豚平台）管理模型。

图1 客服选车助手系统框架图

算法方案详解

线上数据分析显示：用户行为完全不可控。他不会按预设流程走，常插入“有优惠券吗？”（FAQ）或“今天天气怎么样？”（闲聊）。如何在推进主流程的同时，自然地将话题拉回，是核心难点。此外，货物类型多样、用户描述方式千奇百怪，精准理解挑战极大。

我们选择大模型破局，因其具备三大核心能力：强理解力（精准定位多种表述）、智能生成力（回复更拟人、体验更优）、跨语言能力（支持多语种对话）。

LLM-based多智能体系统

为兼顾大模型Agent的灵活性与可控性，我们采用务实路线：通过SOP（标准作业程序）分解任务，实现对Agent的细粒度控制，确保方案易于落地。

图2 LLM-based多智能体系统图

单一智能体难以应对复杂任务，故拆分为两个：NLG Agent负责应答、工具调用与流程引导；NLU Agent专攻对话中货物信息的提取。

NLG Agent

收到用户问题后，首先判断问题类型，再决定响应策略。示例见图3。它会与Memory、Tools及NLU Agent协同工作。

图3 NLG Agent示例

Memory

图4 Memory模块图

Memory存储三类先验知识：

通用知识库：用户提及“电动车”，系统自动补全典型尺寸重量，无需反复追问。
FAQs：用户问“客服电话”，直接返回标准答案。
长短记忆：对话历史，让Agent记住上一轮上下文，提升配合流畅度。

Tools

图5 Tools模块图

Tools负责对接外部系统，包括：

车型推荐接口：基于NLU Agent收集的完整信息，输出精准推荐。
敏感词过滤接口：安全红线，必备组件。
业务SOP：控制对话节奏，避免在闲聊上过度消耗。
流程引导：综合所有信息，决定下一步是回复FAQ还是继续采集货物信息。

NLU Agent

这是最关键的模块。选车助手的核心任务是根据货物信息匹配车型，但用户表达极度多样：

“我要拉一个箱子，长1米”（仅部分信息）
“我要拉20个1m*1m*1m的箱子”（多个同规格物品）
“我要拉1.8m的床和冰箱”（多个不同物品）
“长1.8m，重量不清楚”（信息模糊）

从中精准提取信息是难点。传统NER方法需要大量标注样本、训练周期长，且容易在实体嵌套场景出错。

我们基于自研货运大模型，初始基线在内部测试集上仅50%准确率。经过一轮prompt调优，最高达到60%。分析bad case发现，模型对“不清楚多重”、“外机700×400×500”等表述处理困难。为此引入RAG（检索增强生成）技术。

图6 RAG基本流程图

召回采用多路策略：

向量召回：寻找语义相似的问法，如“1.5长 70cm高 74宽”，系统可常识补全为“长1.5米，宽74厘米，高70厘米”。
货物名称召回：根据“电视”、“冰箱”等具体名称，匹配同类货物的典型规格，如“60寸液晶电视”。

通过多路召回RAG，准确率直接跃升至80%。

此外，在第n轮对话时，将前一轮（n-1轮）已收集的信息作为上下文输入，效果显著提升。再结合硬编码规则处理固定句式，最终内部测试集上的货物信息识别准确率稳定达到90%。

表1 迭代效果对比展示

效果展示

示例1

（以下是新系统的真实对话案例）

用户询问优惠券，助手不仅正确回答，还能自然拉回主流程（“请问桌子的长度、重量？”）。用户更正重量后，助手准确理解上下文，直接更新推荐车型（从小面换为中面）。

效果分析：

流程引导：回答后主动回归主线。
拟人化回复：简洁、自然。
上下文理解：用户更正信息后，推荐实时刷新。

示例2

（另一个真实对话案例）

用户说“一个桌子，一个七十寸的电视机”，助手直接追问桌子信息，对七十寸电视的尺寸和重量已具备常识。用户表示“重量不清楚”，模型自动推理出桌子大致重量，无需再次追问。

效果分析：

多物品信息理解：能处理“一个桌子、一个电视”等复合输入。
具备常识：七十寸电视不用再问重量，桌子重量可自动推断。

总结与下一步

这是大模型在货拉拉业务场景的一次务实落地。面对具体业务的实际挑战，我们摒弃炫技，基于自研货运大模型与多智能体架构，稳扎稳打地打造出兼具“人情味”和“懂业务”的AI客服选车助手。未来将持续迭代优化，并将这套能力复制到更多客服子场景中。

来源：互联网

上一篇 VS Code运行Llama 3模型指南：新手必看教程 下一篇 Gemini邮件管理助手测评：高效与省时

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。