菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 2024年AI客服选车助手LLM评测
技术资讯 人工智能

2024年AI客服选车助手LLM评测

2026-06-01
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

针对用户表达多样、交互僵化等问题,基于大语言模型构建多智能体选车助手,包含NLG和NLU

智能客服行业近年快速迭代,但用户频繁遭遇“答非所问”的痛点:例如询问优惠券,系统却自顾自推荐车型,体验极为割裂。本文剖析货拉拉如何借助大模型技术,将“选车助手”这一看似简单的场景,打磨出高转化率的实操方案。

业务背景与挑战

客服咨询场景可拆为两类:FAQ(用户提问、系统应答)与任务型(逐步引导完成操作,如取消订单、开发票)。AI客服的本质是通过人工智能实现效率与质量提升,同时压缩运营成本。选车助手正是任务型咨询中的典型子场景,其难点在于用户意图多变、货物信息非结构化。

选车助手现状

为精准推荐车型,请配合回答几个问题:您货物的重量是多少?可选择下方近似选项,或手动输入如“0.5吨”“1吨”等

(此处包含货物重量选项列表)

仅剩2个问题!请根据货物长度选择以下选项,或手动输入如“4米”。若有多件货物,只需填写最长件长度(例如床长2米)。注意:长度指物品平放于车厢内从车头到车尾的尺寸;不可倒放的物品(如冰箱),高度不计入长度。

(此处包含货物长度选项列表)

最后一问!请选择要运输的物品类型;若未列出,可输入“水果”“装修建材”等

(此处包含物品类型选项列表)

(以下是用户与助手的真实对话案例,暴露助手无法理解用户问题的糟糕体验)

典型问题一目了然:

1. 仅支持预设类别,货物信息不全,车型推荐失准。

2. 纯点选交互僵硬,无法处理“一张桌子、一台七十寸电视”等复合表达。

3. 回复冗长啰嗦,缺乏人机自然对话感。

4. 用户一旦偏离主流程(如询问优惠),机器人直接“死机”,体验断崖下跌。

技术选型与路线

市面主流商业方案偏保守——重可控、轻灵活。客服需先绘制复杂流程图、编写固定规则,系统严格照本宣科。用户路径稍有偏移,体验崩溃,不得不转人工,成本反而攀升。

过去一年,大模型与智能体技术快速进化。货拉拉内部自研货运大模型,为选车助手的彻底重构注入底气。

系统架构设计

整套选车助手系统自顶向下分为四层:

  • 交互层:覆盖Web、App、小程序,全渠道接入。
  • 应用层:IM后台、WebSocket网关,负责通信链路。
  • 逻辑层:DM对话机器人系统,管理会话与状态。
  • 算法层:核心大脑,基于Multi-Agent框架,配合内部机器学习平台(海豚平台)管理模型。

图1 客服选车助手系统框架图

算法方案详解

线上数据分析显示:用户行为完全不可控。他不会按预设流程走,常插入“有优惠券吗?”(FAQ)或“今天天气怎么样?”(闲聊)。如何在推进主流程的同时,自然地将话题拉回,是核心难点。此外,货物类型多样、用户描述方式千奇百怪,精准理解挑战极大。

我们选择大模型破局,因其具备三大核心能力:强理解力(精准定位多种表述)、智能生成力(回复更拟人、体验更优)、跨语言能力(支持多语种对话)。

LLM-based多智能体系统

为兼顾大模型Agent的灵活性与可控性,我们采用务实路线:通过SOP(标准作业程序)分解任务,实现对Agent的细粒度控制,确保方案易于落地

图2 LLM-based多智能体系统图

单一智能体难以应对复杂任务,故拆分为两个:NLG Agent负责应答、工具调用与流程引导;NLU Agent专攻对话中货物信息的提取。

NLG Agent

收到用户问题后,首先判断问题类型,再决定响应策略。示例见图3。它会与Memory、Tools及NLU Agent协同工作。

图3 NLG Agent示例

Memory

图4 Memory模块图

Memory存储三类先验知识:

  • 通用知识库:用户提及“电动车”,系统自动补全典型尺寸重量,无需反复追问。
  • FAQs:用户问“客服电话”,直接返回标准答案。
  • 长短记忆:对话历史,让Agent记住上一轮上下文,提升配合流畅度。

Tools

图5 Tools模块图

Tools负责对接外部系统,包括:

  • 车型推荐接口:基于NLU Agent收集的完整信息,输出精准推荐。
  • 敏感词过滤接口:安全红线,必备组件。
  • 业务SOP:控制对话节奏,避免在闲聊上过度消耗。
  • 流程引导:综合所有信息,决定下一步是回复FAQ还是继续采集货物信息。

NLU Agent

这是最关键的模块。选车助手的核心任务是根据货物信息匹配车型,但用户表达极度多样:

  • “我要拉一个箱子,长1米”(仅部分信息)
  • “我要拉20个1m*1m*1m的箱子”(多个同规格物品)
  • “我要拉1.8m的床和冰箱”(多个不同物品)
  • “长1.8m,重量不清楚”(信息模糊)

从中精准提取信息是难点。传统NER方法需要大量标注样本、训练周期长,且容易在实体嵌套场景出错。

我们基于自研货运大模型,初始基线在内部测试集上仅50%准确率。经过一轮prompt调优,最高达到60%。分析bad case发现,模型对“不清楚多重”、“外机700×400×500”等表述处理困难。为此引入RAG(检索增强生成)技术。

图6 RAG基本流程图

召回采用多路策略:

  • 向量召回:寻找语义相似的问法,如“1.5长 70cm高 74宽”,系统可常识补全为“长1.5米,宽74厘米,高70厘米”。
  • 货物名称召回:根据“电视”、“冰箱”等具体名称,匹配同类货物的典型规格,如“60寸液晶电视”。

通过多路召回RAG,准确率直接跃升至80%。

此外,在第n轮对话时,将前一轮(n-1轮)已收集的信息作为上下文输入,效果显著提升。再结合硬编码规则处理固定句式,最终内部测试集上的货物信息识别准确率稳定达到90%

表1 迭代效果对比展示

效果展示

示例1

(以下是新系统的真实对话案例)

用户询问优惠券,助手不仅正确回答,还能自然拉回主流程(“请问桌子的长度、重量?”)。用户更正重量后,助手准确理解上下文,直接更新推荐车型(从小面换为中面)。

效果分析:

  • 流程引导:回答后主动回归主线。
  • 拟人化回复:简洁、自然。
  • 上下文理解:用户更正信息后,推荐实时刷新。

示例2

(另一个真实对话案例)

用户说“一个桌子,一个七十寸的电视机”,助手直接追问桌子信息,对七十寸电视的尺寸和重量已具备常识。用户表示“重量不清楚”,模型自动推理出桌子大致重量,无需再次追问。

效果分析:

  • 多物品信息理解:能处理“一个桌子、一个电视”等复合输入。
  • 具备常识:七十寸电视不用再问重量,桌子重量可自动推断。

总结与下一步

这是大模型在货拉拉业务场景的一次务实落地。面对具体业务的实际挑战,我们摒弃炫技,基于自研货运大模型与多智能体架构,稳扎稳打地打造出兼具“人情味”和“懂业务”的AI客服选车助手。未来将持续迭代优化,并将这套能力复制到更多客服子场景中。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多