PubMedQA权威评测:生物医学问答数据集深度解析
摘要
在生物医学研究领域,如何让机器理解并回答基于科学文献的专业问题,一直是个不小的挑
在生物医学研究领域,如何让机器理解并回答基于科学文献的专业问题,一直是个不小的挑战。今天要聊的PubMedQA,正是为此而生。它是一个直接从PubMed摘要中构建出来的问答数据集,专门用来训练和评估模型在生物医学文本上的推理能力。
那么,PubMedQA具体要解决什么问题呢?它的任务很明确:给定一个研究问题(比如“术前使用他汀类药物是否能减少冠状动脉搭桥术后的心房颤动?”),模型需要阅读对应的论文摘要,然后给出“是”、“否”或“可能”的答案。这个数据集规模不小,包含了1000条由专家标注的实例、6.12万条未标记的实例,以及超过21.1万条由人工生成的问答对。
每一个PubMedQA的数据样本都设计得非常清晰,包含四个核心部分:
首先是一个具体的研究问题,它可能直接来自论文标题,或是从标题衍生出来的;
其次是上下文,也就是论文的摘要部分,但特意去掉了结论;
接着是“长答案”,这部分恰恰就是被拿掉的摘要结论,理论上它应该能直接回答问题;
最后,是一个总结性的“是/否/可能”答案。
这种结构使得PubMedQA显得与众不同。它是首个要求模型对生物医学研究文本进行深入推理,特别是对其中的定量信息进行分析,才能做出判断的问答数据集。这无疑对模型的阅读理解能力提出了更高要求。
目前,在这个数据集上表现最佳的模型,是基于BioBERT进行多阶段微调,并引入长答案的词袋统计特征作为额外监督信号。即便如此,其准确率也才达到68.1%。相比之下,人类专家在此任务上的准确率约为78.0%,而一个简单的“多数基线”模型准确率只有55.2%。这些数字清楚地表明,现有模型还有很长的路要走,改进空间巨大。
对于感兴趣的研究者和开发者来说,PubMedQA数据集已经公开,可以通过其官方网站获取,以便进一步推动这个领域的发展。
来源:互联网
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。