AI数据处理实战:品牌名称提取技巧榜单
摘要
通过对比通义、文心一言和豆包三个大模型从电商标题中提取品牌名称的效果,发现豆包表
从电商标题或商品描述里提取品牌名称,这事儿听起来不大,真做起来才知道有多琐碎。尤其是当表格拉到几百行、几千行的时候,人工一条条翻,眼睛都得看花。这时候,让AI大模型来代劳,确实是个高效的选择。
上图是一个表格的截图,A列有10个单元格,每个单元格里都有一段文本,目标是准确提取出其中的品牌名。10行数据手动处理还能应付,但如果换成几百行、几千行,工作量就完全不同了。那么,究竟怎么用AI大模型来处理这个任务?
用过AI大模型的人都知道,真正决定输出质量的,往往不是模型本身,而是你给它的prompt。不同的写法,结果可能天差地别。找到最精准的指令,才是这个环节的核心。
1、通义大模型的表现
经过几轮调试,我们给通义大模型设计了这样一个prompt:
任务:提取表格中10个单元格中间出现的所有品牌的名称
要求:
1、每个单元格提取的结果输出为一行,表格有10个单元格,输出结果也是10行,每行结果前加上1、2、3的序号;
2、如果某个单元格没有品牌名称,则输出无;
3、如果某个单元格有多个品牌名称,请全部提取,并输出为一行,用中划线将多个品牌名称分隔开。
结果出来之后,可以看出一些明显的问题:
第3行:优衣库后面被错误地添加了一些多余的文字;
第8行:这个单元格其实没有品牌,但模型依旧提取了一些无关信息;
第10行:多个品牌中的“问界”,后面被错误地加上了“汽车”。
显然,通义在“精确提取”这一点上,还有不少提升空间。
2、文心一言大模型的表现
文心一言有个限制——没办法直接上传表格。所以我们把文本内容直接写进了prompt里。当然,如果数据量非常大,比如几千条文本都塞进prompt,很容易突破token上限,这种情况下更推荐直接调用API。
调试后的prompt如下:
文本内容:
奥克斯电蚊拍充电式家用强力锂电池灭蚊灯二合一驱蚊神器打苍蝇拍
全棉时代洗脸巾擦脸巾平纹M码洁面巾纯棉柔巾100抽*1包洗面巾
优衣库男装女装凉感大师T AIRism宽松圆领T恤五分袖短袖465185
湿厕纸便携小包10片X1包擦洁厕湿纸巾女性经期湿巾旅行家用维达
防晒服拉夏贝尔女2024夏季新款高倍防晒长袖修身显瘦百搭时尚外套
飞科剃须刀男士电动刮胡刀官方旗舰店正品送男友父亲节礼物送爸爸
三只松鼠手撕面包1000gX1箱零食早餐首选休闲食品三只松鼠蛋糕点心吐司
意式极简床头柜2024新款轻奢高级感实木简约现代卧室床边保险柜子
虎牌保险柜箱智能床头柜一体家用防盗无线充电现代多功能2024新款
我喜欢心心相印的纸巾,你喜欢百果园的水果,他喜欢问界汽车
要求:
1、从以上10行文本中提取所有品牌的名称;
2、每一行文本提取的结果输出为一行,每行结果前加上1、2、3的序号;
3、如果某一行文本中没有品牌名称,则输出无;
4、如果某一行文本中有多个品牌名称,请全部提取,并输出为一行,用中划线将多个品牌名称分隔开。
坦白讲,文心的表现比通义好不少。10行数据里,只有第10行出了一个小问题——“问界”后面还是错误地加上了“汽车”。相比通义的三处错误,文心确实强了一个台阶。
3、豆包大模型的表现
我们用同样的prompt去测试豆包,结果如下:
说实话,看到这个结果时还挺意外的。10行数据,完全没有出错,每一个品牌名都提取得干干净净,没有多余文字,没有遗漏。豆包的理解能力,确实让人眼前一亮。
总结
从这次对比中,基本可以盘出三条经验:
1、调试好prompt,永远是第一步,也是最关键的一步。prompt写得越精准,模型的输出就越可靠。
2、不同模型之间的差距是真实存在的。有的模型一次就出完美结果,有的则会在细节上反复出错。遇到复杂的提取任务,多试几个模型,反而能找到最优解。
3、当数据量较大时,用API调用是更稳妥的方案,能有效规避token限制的问题,也便于批量处理。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。