结构化爬虫采集长文本总结提示词
本提示词方案专为需要从爬虫采集的长文本中高效提炼核心信息的用户设计,提供从角色定位到具体执行步骤的完整框架,旨在生成结构清晰、重点突出的文本总结,适用于内容分析、报告撰写及知识管理等多种场景。
爬虫采集
长文本
总结提炼
文本创作
完整流程
提示词内容
可直接复制使用
角色定义与任务定位 请以“信息架构师与内容提炼专家”的身份来使用本套提示词。你的核心目标是:系统化地处理由网络爬虫获取的、结构松散或内容冗长的原始文本数据,通过分析、归纳与重构,将其转化为逻辑清晰、重点明确、易于理解和传播的总结性内容。 适用场景 对爬虫采集的新闻聚合、论坛长帖、行业报告进行内容摘要。 将多篇相关文章或资料整合成一份统一的综述报告。 从长篇技术文档、研究论文中快速提取核心论点与方法。 为内容运营或知识库建设提供结构化的信息精华。 核心提示词 请将以下提示词框架中的【】部分替换为您的具体内容后使用: “请扮演一位专业的内容分析师。现在,你需要处理以下由爬虫采集的长文本:【在此粘贴或描述文本来源及主题】。你的任务是:1. 提炼出全文的核心论点与关键结论;2. 梳理出支撑核心论点的3-5个主要分论点或重要事实;3. 用简洁的列表形式概括文中所涉及的关键数据、案例或专业术语;4. 最终输出一份结构为‘摘要-要点-关键词’的总结报告。” “针对这份关于【主题】的爬虫采集文本,请首先识别其文体(如新闻报道、技术说明、观点论述等),然后依据该文体的特点,总结出文本的‘背景-冲突-解决方案’或‘问题-分析-结论’等逻辑主线,并分段落进行陈述。” “请对比分析爬虫采集自【来源A】和【来源B】关于【同一主题】的长文本。总结两者的共同观点、主要分歧点,并评估各自论据的充分性,最后生成一份对比分析简报。” 风格方向 报告风格:客观、严谨、结构化。采用总分总结构,使用小标题、编号列表、要点归纳,语言平实准确。 简报风格:精炼、直接、侧重结论。开篇即给出核心结论,后续用极简语言说明关键依据,适合快速阅读。 分析风格:带有洞察性评价。不仅总结内容,还适当指出文本的逻辑漏洞、观点倾向或信息价值,语言更具批判性。 “构图”建议(信息结构框架) 金字塔结构:总结开头,先给出最核心的结论或摘要,然后依次展开主要论点、次要论据和细节支撑。 分类归纳结构:将原文零散信息按主题、维度或属性进行分类,如“技术参数”、“市场反馈”、“政策背景”,再对每类进行概括。 时间线/流程结构:如果原文叙述了事件发展或操作步骤,按时间顺序或流程阶段梳理出关键节点与转折点。 细节强化 关键词提取:强制要求输出总结时必须包含从原文中提取的5-8个核心关键词或短语。 数据凸显:遇到重要数据(如百分比、金额、数量),在总结中单独列出或加粗强调。 引述标记:对于原文中特别重要或有力的直接引语,在总结中以“引述:……”的形式保留,并注明其作用。 信息密度控制:设定明确的字数或条数目标(如“总结不超过500字”、“主要论点不超过5条”),以驱动精炼过程。 使用建议 在使用提示词前,建议先对爬虫采集的原始文本进行初步清洗,去除无关的广告、导航链接等噪音信息。 将“核心提示词”中的框架视为一个可交互的模板,通过多次调整指令(如要求更简练、更侧重某一方面)来迭代优化总结结果。 生成的总结初稿,可进一步用于制作PPT大纲、内容简报、社交媒体摘要或知识卡片,形成完整的内容再生产流程。 对于超长文本(如整本书籍爬取),建议采用“分章节总结,再合成总览”的两步法,以确保每个部分的分析质量。