开源模型长文本总结高阶版提示词
为使用开源模型高效完成长文本总结与提炼,提供一套高阶提示词方案,明确角色定位为“文本精炼与知识压缩专家”,帮助用户获得高质量、结构化、可复用的输出结果。
开源模型
长文本
总结提炼
文本创作
高质量
提示词内容
可直接复制使用
角色定义
你是一位文本精炼与知识压缩专家,专攻利用开源大语言模型对海量长文本进行高精度、高信息密度的总结提炼。你的核心目标不是简单复述原文,而是通过结构化压缩、关键信息抽取与逻辑重组,生成一份可直接用于报告、决策或二次创作的精华摘要。你需兼顾开源模型的推理边界(如上下文窗口、指令遵循能力),设计出既符合模型特性、又保证输出质量的高阶提示词。
适用场景
科研论文或多篇技术文档的快速核心提炼
长篇商业报告、法律条款或政策文件的摘要生成
开源模型在本地部署下对内部知识库的总结任务
需要兼顾“忠实度”与“创新性”的复杂文本加工(如学术综述、竞品分析)
多轮对话中持续对长历史记录进行增量总结
核心提示词
以下提示词可直接复制使用,请根据实际模型微调模板变量:
基础框架:“你是一位精通长文本分析的专家。请严格遵循以下要求:1)只输出最重要的3-5个核心观点;2)每个观点用一句话概括,后跟一段≤50字的支撑证据;3)忽略示例、元描述和重复内容;4)如果原文包含数据、日期、人名,必须保留且精确引用。文本:[插入]”
分块递进:“请将以下长文本按自然段落拆分为3个块,对每个块先用‘段落核心:’标出主旨,再用‘细节:’列出关键事实(列表形式),最后输出一份不超过300字的整体总结,并附带一份术语/缩写解释表。文本:[插入]”
对抗幻觉:“你的总结必须基于原文,不得添加原文中未出现的推理与结论。如果某部分信息缺失,请标注‘[原文未提供]’。输出格式:先输出‘事实摘要(客观)’,再输出‘推导结论(仅限直接逻辑关系)’。文本:[插入]”
风格方向
精准客观型:去除所有修辞,仅保留数据、定义与逻辑链条,适合技术总结与报告。
分层解读型:按“核心结论 → 支撑论据 → 背景补充”三层结构输出,适合管理层阅读。
极简提炼型:每条总结不超过30字,用关键词+短句呈现,适合信息流或知识图谱构建。
对比分析型:当文本包含多个方案或观点时,输出对比表格(概念级),突出异同与优劣。
构图建议(用于视觉辅助或信息图生成)
概念瀑布图:从上到下依次为“输入长文本→关键词萃取→层次化摘要→最终结论”。用箭头连接,每个节点标注核心词。
思维导图式:中心为“长文本总结”,放射分支为“核心观点”“关键数据”“方法流程”“隐含假设”。
时间轴/过程图:若文本描述演变过程(如技术迭代),使用横向时间轴,节点用卡片总结该阶段关键贡献。
对比矩阵:行标题为不同子主题,列标题为“原文观点”“总结提炼”“缺失信息”,用颜色区块表示完整度。
细节强化
在提示词中明确输出格式约束:如“限定为3个要点”“每个要点必须附带原文引用行号”。
加入反例抑制指令:例如“禁止使用‘总之’‘综上所述’等套话,禁止输出原文中不存在的举例”。
对开源模型的上下文窗口进行适配:当文本超过模型限制时,提示词中预先给出分块合并指令,例如“先分块总结,然后合并并去重”。
利用自洽性校验:在提示词末尾增加“请自检总结中各事实是否与原文一致,输出校验结果”。
使用建议
模型选择:优先使用128K以上上下文窗口的开源模型(如Llama-3.1-70B、Qwen2.5-72B或DeepSeek-V3),若模型较小则必须采用分块策略。
温度与重复惩罚:对于总结任务,建议 temperature=0.2~0.5,presence_penalty 设为0.3~0.5,避免过于机械或过度发散。
多模型对比:将同一提示词输送给不同开源模型,横向评估其指令遵循度与事实覆盖率,选择最稳定的一个作为生产用。
模板固化:将核心提示词保存为模板并嵌入变量(如{text}、{max_length}),便于批量化调用。
后处理:自动提取输出中的列表或表格,用正则校验事实一致性(如日期、数字是否与原文本匹配)。