技术资讯

提示词最佳实践：Prompt效果评测与产品构建

2026-05-30

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

梳理智谱AI公开的prompt最佳实践后，有几条关键思路值得沉淀。本系列拆分为三部分：prompt

梳理智谱AI公开的prompt最佳实践后，有几条关键思路值得沉淀。本系列拆分为三部分：prompt框架、迭代优化，以及评测与产品构建。本篇聚焦第三块——prompt效果评测方法论。

01 确定评测维度

模型输出的质量如何判定？核心逻辑分三步：先根据业务目标定义标准；再对照不同场景的通用评估维度；若初期缺乏依据，可通过小样本测试，从实际评测中提炼出迭代方向。

场景	不同场景通用评测维度
文本写作	格式合规（文书格式、诗歌押韵、段落数量约束等）；内容准确可用（符合规范、与输入相关）；用词符合要求（如指定成语、术语、歇后语，或特定难度句式）。
信息抽取	格式合规（json格式、key-value对、数据格式等）；抽取维度准确（按所要求粒度抽取）；抽取内容完整（不多抽、不漏抽、不生成臆造内容）。
角色扮演（多轮对话）	人设一致性（性格、关系、兴趣、经历与设定吻合）；对话流畅性（不生硬、有趣、人设鲜明，断句、语气、说话方式自然）；回复多样性（能主动推进剧情、切换场景，避免重复输出）；对话逻辑性（无语句截断、不完整、答非所问、前后矛盾或逻辑错误）。
知识库问答	答案正确性（端到端准确率，与知识库一致，不多答、漏答；人工比对原文并做主观定性判断）；拒答准确性（无法回答时需明确拒绝，避免编造）；反问追问合理性（在恰当时机询问补充信息以完成解答）。
意图识别/分类	整体准确率（正确数/总case数）；精准率（预测结果中正确占比）；召回率（正例中被覆盖的比例）。