提示词最佳实践:Prompt效果评测与产品构建
摘要
梳理智谱AI公开的prompt最佳实践后,有几条关键思路值得沉淀。本系列拆分为三部分:prompt
梳理智谱AI公开的prompt最佳实践后,有几条关键思路值得沉淀。本系列拆分为三部分:prompt框架、迭代优化,以及评测与产品构建。本篇聚焦第三块——prompt效果评测方法论。
Prompt效果评测
01 确定评测维度
模型输出的质量如何判定?核心逻辑分三步:先根据业务目标定义标准;再对照不同场景的通用评估维度;若初期缺乏依据,可通过小样本测试,从实际评测中提炼出迭代方向。
| 场景 | 不同场景通用评测维度 |
| 文本写作 | 格式合规(文书格式、诗歌押韵、段落数量约束等);内容准确可用(符合规范、与输入相关);用词符合要求(如指定成语、术语、歇后语,或特定难度句式)。 |
| 信息抽取 | 格式合规(json格式、key-value对、数据格式等);抽取维度准确(按所要求粒度抽取);抽取内容完整(不多抽、不漏抽、不生成臆造内容)。 |
| 角色扮演(多轮对话) | 人设一致性(性格、关系、兴趣、经历与设定吻合);对话流畅性(不生硬、有趣、人设鲜明,断句、语气、说话方式自然);回复多样性(能主动推进剧情、切换场景,避免重复输出);对话逻辑性(无语句截断、不完整、答非所问、前后矛盾或逻辑错误)。 |
| 知识库问答 | 答案正确性(端到端准确率,与知识库一致,不多答、漏答;人工比对原文并做主观定性判断);拒答准确性(无法回答时需明确拒绝,避免编造);反问追问合理性(在恰当时机询问补充信息以完成解答)。 |
| 意图识别/分类 | 整体准确率(正确数/总case数);精准率(预测结果中正确占比);召回率(正例中被覆盖的比例)。 |
示例:角色扮演闲聊场景
要求模型输出简洁流畅的日常口语回复。
02 构建评测集、测试迭代
评测集数量建议不少于50条,100条以上效果更稳。评测集分布需与真实问题分布对齐,可通过线上抽样和按维度构造两种方式获取。
- 线上抽样:小版本优化后灰度上线,收集线上badcase,再次迭代、上线。
- 按维度构造:针对不同维度人工设计测试用例。
测试迭代的策略是:前期用小部分评测集快速迭代小版本,待效果稳定后再用完整评测集做大版本测试,此举能大幅降低评测成本。
构建示例:知识库项目
构建产品方案
01 产品方案构建流程
从模型层到应用层,分层处理:预训练沉淀通用能力,微调聚焦领域能力,prompt工程解决具体任务。应用层则需产品化与工程化,将多任务调度整合为统一方案。
02 不同应用场景
To C面向终端用户,内容优先,打造全能助理;To B面向专业场景,需要领域AI专家能力,工程要求高,输出必须严谨。
- To C场景
- To B场景
03 大模型应用规划流程
大模型应用构建流程概览:

Flow形式【以对话质检为例】

第一种方式通过flow拆解流程,以对话质检为例:
- prompt1:信息预处理

- prompt2:信息抽取

Agent方案【外卖助手agent】

第二种方式通过agent方案构建。以智谱清言的智能体为例,设计agent的人设、技能、知识库等:


prompt设计示意:

归根结底,prompt是低成本调用AI能力的最优路径。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。