菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > AI资讯新闻 > 提示词最佳实践:Prompt效果评测与产品构建
技术资讯

提示词最佳实践:Prompt效果评测与产品构建

2026-05-30
阅读 0
热度 0
作者 菜鸟AI编辑部
摘要

摘要

梳理智谱AI公开的prompt最佳实践后,有几条关键思路值得沉淀。本系列拆分为三部分:prompt

梳理智谱AI公开的prompt最佳实践后,有几条关键思路值得沉淀。本系列拆分为三部分:prompt框架、迭代优化,以及评测与产品构建。本篇聚焦第三块——prompt效果评测方法论。

Prompt效果评测

01 确定评测维度

模型输出的质量如何判定?核心逻辑分三步:先根据业务目标定义标准;再对照不同场景的通用评估维度;若初期缺乏依据,可通过小样本测试,从实际评测中提炼出迭代方向。

场景不同场景通用评测维度
文本写作格式合规(文书格式、诗歌押韵、段落数量约束等);内容准确可用(符合规范、与输入相关);用词符合要求(如指定成语、术语、歇后语,或特定难度句式)。
信息抽取格式合规(json格式、key-value对、数据格式等);抽取维度准确(按所要求粒度抽取);抽取内容完整(不多抽、不漏抽、不生成臆造内容)。
角色扮演(多轮对话)人设一致性(性格、关系、兴趣、经历与设定吻合);对话流畅性(不生硬、有趣、人设鲜明,断句、语气、说话方式自然);回复多样性(能主动推进剧情、切换场景,避免重复输出);对话逻辑性(无语句截断、不完整、答非所问、前后矛盾或逻辑错误)。
知识库问答答案正确性(端到端准确率,与知识库一致,不多答、漏答;人工比对原文并做主观定性判断);拒答准确性(无法回答时需明确拒绝,避免编造);反问追问合理性(在恰当时机询问补充信息以完成解答)。
意图识别/分类整体准确率(正确数/总case数);精准率(预测结果中正确占比);召回率(正例中被覆盖的比例)。

示例:角色扮演闲聊场景
要求模型输出简洁流畅的日常口语回复。

02 构建评测集、测试迭代

评测集数量建议不少于50条,100条以上效果更稳。评测集分布需与真实问题分布对齐,可通过线上抽样和按维度构造两种方式获取。

  • 线上抽样:小版本优化后灰度上线,收集线上badcase,再次迭代、上线。
  • 按维度构造:针对不同维度人工设计测试用例。

测试迭代的策略是:前期用小部分评测集快速迭代小版本,待效果稳定后再用完整评测集做大版本测试,此举能大幅降低评测成本。

构建示例:知识库项目

构建产品方案

01 产品方案构建流程

从模型层到应用层,分层处理:预训练沉淀通用能力,微调聚焦领域能力,prompt工程解决具体任务。应用层则需产品化与工程化,将多任务调度整合为统一方案。

02 不同应用场景

To C面向终端用户,内容优先,打造全能助理;To B面向专业场景,需要领域AI专家能力,工程要求高,输出必须严谨。

  • To C场景
  • To B场景

03 大模型应用规划流程

大模型应用构建流程概览:

Flow形式【以对话质检为例】

第一种方式通过flow拆解流程,以对话质检为例:

  • prompt1:信息预处理

  • prompt2:信息抽取

Agent方案【外卖助手agent】

第二种方式通过agent方案构建。以智谱清言的智能体为例,设计agent的人设、技能、知识库等:

prompt设计示意:

归根结底,prompt是低成本调用AI能力的最优路径。

来源:互联网

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

同类文章推荐

相关文章推荐

更多