菜鸟AI - 让提示词生成更简单! 全站导航 全站导航
AI工具安装 新手教程 进阶教程 辅助资源 AI提示词 热点资讯 技术资讯 产业资讯 内容生成 模型技术 AI信息库

已有账号?

首页 > 提示词 > 爬虫采集投标文书生成结构化提示词

爬虫采集投标文书生成结构化提示词

2026-06-02
阅读 0
热度 139

针对“爬虫采集投标文书生成结构化提示词”这一需求,提供一套专业提示词方案,帮助用户以数据采集与文书分析师身份,将非结构化投标信息转化为可复用的结构化字段与生成指令,提升投标文书处理效率。

爬虫采集 投标文书 文书生成 实战应用
提示词内容

提示词内容

可直接复制使用
角色定义与任务定位
你应以爬虫采集与文书结构化生成专家的身份,围绕从各类公开招标平台或政府网站采集到的投标文书(PDF、Word、HTML等格式),将其中的关键信息提取、分类、重组,最终产出可直接用于后续提示词调用或批量生成的结构化字段模板。目标:让非结构化的原始投标数据变成字段清晰、逻辑统一、可被AI直接理解并生成完整投标文书初稿的提示词方案。

适用场景

批量处理从多个招标平台爬取到的不同格式的投标公告或招标文件。
快速生成投标响应文档的结构化数据(如项目概况、技术需求、商务条款、资质要求)。
构建投标文书智能生成的底模,用于后续自动化标书编写或合规审查。
需要将爬虫采集结果转化为统一格式的数据库字段,供大模型或RPA系统调用。


核心提示词
以下为可直接复制使用的提示词模板:

基础字段提取提示词:请从以下爬虫采集到的投标文书中,严格提取以下字段并输出为JSON格式:项目编号、项目名称、采购人名称、代理机构、预算金额(元)、投标截止时间、开标时间、采购方式(公开招标/竞争性磋商等)、投标人资格要求(简要概括)、技术要求(核心参数条目)、评分标准(权重分配)。
格式统一与清洗提示词:将所有金额字段统一为数字格式,日期字段转换为YYYY-MM-DD格式,列表项使用有序编号,删除无关页眉页脚和重复段落。
文书生成提示词:基于上述提取的结构化数据,生成一份标准投标书技术方案目录框架,包括:技术响应表、实施方案描述、项目团队配置、进度计划、售后承诺。每个章节用标签标注,内容用关键词占位符表示。


风格方向

专业权威:采用正式招投标书面语,术语准确(如“实质性条款”“偏离项”)。
结构化清晰:所有输出必须包含明确的字段名称和层级,便于后续二次处理。
简洁可读:避免冗余描述,核心数据以列表或表格化文字呈现,每个字段不超过30字说明。
合规导向:符合《政府采购法》及常见招标文件格式要求,包含必要的声明与签章占位。


构图建议
若需将结果可视化(如用于投标分析仪表盘或报告),可按以下构图思路设计:

信息流式布局:左侧为爬虫源文件关键摘要(如标题、时间、预算),右侧为结构化字段清单,中间用箭头标注提取逻辑。
树状层级图表:按“项目基本信息→投标人资质→技术方案→商务条款”进行分支结构展示。
对比表格:将不同标段或不同批次采集的文书结构化结果并排展示,突出差异项(如金额、截止时间)。
色彩方案:主色使用深蓝(代表专业与信任),辅以浅灰和白色背景,重要字段(如截止时间、预算)用高亮黄色或红色标注。


细节强化

字段唯一性:为每个字段添加数据清洗规则,如“检查金额字段是否含千分位逗号并去除”“日期字段若为空则标记‘待补’”。
异常处理:在提示词中明确要求“如遇缺失字段,用NULL占位并输出缺失字段名称列表”。
批量支持:提示词应设计为可循环调用的模板,例如“对第{N}条记录执行相同提取逻辑,结果输出到数组”。
版权与隐私:在提示词末尾附加说明“不提取敏感联系人电话、身份证号等个人信息”。


使用建议

先使用爬虫工具(如Scrapy、BeautifulSoup)批量采集投标文书的原始文本或HTML,存入本地或数据库。
将采集到的纯文本作为变量输入上述核心提示词,建议每次输入一条完整文书,避免上下文过长导致遗漏。
输出结构化结果后,利用JSON格式化工具验证字段完整性,再导入AI对话或自动化脚本进行文书生成。
若需提高准确率,可在提示词中增加示例,例如:“以下是一个正确提取的示例:{'项目名称':'XX省疾控中心实验室设备采购' ...}”。
对于多页或扫描版PDF,建议先使用OCR工具转为纯文本,再执行结构化提取。
同类提示词

同类提示词