搜索
首页科技周边人工智能通过与 GPT 对话实现零样本信息抽取

目前通用大模型取代为特定任务定制训练的专属模型的趋势逐渐显露,这种方式使AI模型应用的边际成本大幅下降。由此提出一个问题:不经过训练来实现零样本信息抽取是否可行?

信息抽取技术作为构建知识图谱的重要一环,如果完全不需要训练就可以实现,将使数据分析的门槛大幅降低,有利于实现自动化知识库构建。

我们通过对GPT-3.5用提示工程的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction),发现GPT3.5能够自动从原始句子中提取结构化信息。支持中英文,工具代码已开源。

工具网址:​https://cocacola-lab.github.io/GPT4IE/​ 

代码:​https://github.com/cocacola-lab/GPT4IE​

背景介绍

信息抽取(Information Extraction,IE)目标是从无结构文本中抽取结构化信息,包括实体-关系三元组抽取(Entity-relation Extract, RE)、命名实体识别(Named Entity Recognition, NER)和事件抽取(Event Extraction, EE)[1][2][3][4][5]。许多研究已经开始依赖IE技术来自动化进行零样本/少样本工作,例如clinical IE [6]。

近来大规模预训练语言模型(Large Pre-trained Language Model, LLMs)在许多下游任务上都表现极佳,甚至仅仅通过几个例子作为引导而不需要微调就能实现。由此我们提出一个问题:仅通过提示来实现零样本IE任务是否可行? 我们尝试对GPT-3.5用提示的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction)。在与GPT3.5和提示的结合下,它能够自动从原始句子中提取结构化信息。

技术框架

设计了特定任务的提示模板(task-specified prompt template), 然后将用户的输入填充模板中特定的槽值 (slot),形成提示(prompt),输入GPT-3.5中,进行IE。支持的任务有三种:RE、NER和EE,且这三种任务均支持中英文双语。用户需要输入句子和制定抽取类型列表(即关系列表、头实体列表、尾实体列表、实体类型列表或者事件列表)。具体如下:

RE任务的目标是从文本中抽取三元组,比如“(China, capital, Beijing)”, “(《如懿传》, 主演, 周迅)”。其要求的输入格式如下(带“*”的代表非必填项,我们为这些选项都设置了默认值,但是为了灵活性支持用户自定义指定列表,后同):

  • Input Sentence: 输入文本
  • Relation type list (rtl)* : ['关系类型1', '关系类型2', ...]
  • Subject type list (stl)* : ['头实体类型1', '头实体类型2', ...]
  • Object type list (otl)* : ['尾实体类型1', '尾实体类型2', ...]
  • OpenAI API key: OpenAI API 密钥(我们在Github中提供了部分可用key,以供示例使用。)

NER任务旨在从文本中抽取实体,例如“(LOC, Beijing)” , “(人物, 周恩来)”。在NER任务上,输入格式如下:

  • Input Sentence: 输入文本
  • Entity type list (etl)* : ['实体类型1', '实体类型2', ...]
  • OpenAI API key: OpenAI API 密钥

EE任务旨在从纯文本中提取事件,例如“{Life-Divorce: {Person: Bob, Time: today, Place: America}}“ , “{竞赛行为-晋级: {时间: 无, 晋级方: 西北狼, 晋级赛事: 中甲榜首之争}}”。输入格式如下:

  • Input Sentence: 输入文本
  • Event type list (etl)* : {'事件类型1': ['论元角色1', '论元角色2', ...], ...}
  • OpenAI API key: OpenAI API 密钥

工具使用示例

3.1 RE示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

rtl: ['location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

stl: ['organization', 'person', 'location', 'country']

otl: ['person', 'location', 'country', 'organization', 'city']

输出:

图片

3.2 RE示例二

输入:

Input Sentence: 《如懿传》是一部古装宫廷情感电视剧,由汪俊执导,周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。

rtl: ['所属专辑', '成立日期', '海拔', '官方语言', '占地面积', '父亲', '歌手', '制片人', '导演', '首都', '主演', '董事长', '祖籍', '妻子', '母亲', '气候', '面积', '主角', '邮政编码', '简称', '出品公司', '注册资本', '编剧', '创始人', '毕业院校', '国籍', '专业代码', '朝代', '作者', '作词', '所在城市', '嘉宾', '总部地点', '人口数量', '代言人', '改编自', '校长', '丈夫', '主持人', '主题曲', '修业年限', '作曲', '号', '上映时间', '票房', '饰演', '配音', '获奖']

stl: ['国家', '行政区', '文学作品', '人物', '影视作品', '学校', '图书作品', '地点', '历史人物', '景点', '歌曲', '学科专业', '企业', '电视综艺', '机构', '企业/品牌', '娱乐人物']

otl: ['国家', '人物', 'Text', 'Date', '地点', '气候', '城市', '歌曲', '企业', 'Number', '音乐专辑', '学校', '作品', '语言']

输出:

图片

3.3 NER示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

etl: ['LOC', 'MISC', 'ORG', 'PER']

输出:

图片

3.4 NER示例二

输入:

Input Sentence: 在过去的五年中,致公党在邓小平理论指引下,遵循社会主义初级阶段的基本路线,努力实践致公党十大提出的发挥参政党职能、加强自身建设的基本任务。

etl: ['组织机构', '地点', '人物']

输出:

图片

3.5 EE示例一

输入:

Input Sentence: Yesterday Bob and his wife got divorced in Guangzhou.

etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time', 'Place'], 'Business:Declare-Bankruptcy': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', 'Time', 'Place'], 'Life:Divorce': ['Person', 'Time', 'Place'], 'Life:Injure': ['Agent', 'Victim', 'Instrument', 'Time', 'Place']}

输出:

图片

3.6 EE示例二

输入:

Input Sentence:: 在2022年卡塔尔世界杯决赛中,阿根廷以点球大战险胜法国。

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

图片

3.7 EE示例三(一个有意思的错误示例)

输入:

Input Sentence:: 我今天和他离婚了

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

图片

明显上面的输出使错误的,自定义etl为: {'离婚': ['时间', '人物']},输出为:

图片

以上是通过与 GPT 对话实现零样本信息抽取的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
一个提示可以绕过每个主要LLM的保障措施一个提示可以绕过每个主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隐藏者的开创性研究暴露了领先的大语言模型(LLM)的关键脆弱性。 他们的发现揭示了一种普遍的旁路技术,称为“政策木偶”,能够规避几乎所有主要LLMS

5个错误,大多数企业今年将犯有可持续性5个错误,大多数企业今年将犯有可持续性Apr 25, 2025 am 11:15 AM

对环境责任和减少废物的推动正在从根本上改变企业的运作方式。 这种转变会影响产品开发,制造过程,客户关系,合作伙伴选择以及采用新的

H20芯片禁令震撼中国人工智能公司,但长期以来一直在为影响H20芯片禁令震撼中国人工智能公司,但长期以来一直在为影响Apr 25, 2025 am 11:12 AM

最近对先进AI硬件的限制突出了AI优势的地缘政治竞争不断升级,从而揭示了中国对外国半导体技术的依赖。 2024年,中国进口了价值3850亿美元的半导体

如果Openai购买Chrome,AI可能会统治浏览器战争如果Openai购买Chrome,AI可能会统治浏览器战争Apr 25, 2025 am 11:11 AM

从Google的Chrome剥夺了潜在的剥离,引发了科技行业中的激烈辩论。 OpenAI收购领先的浏览器,拥有65%的全球市场份额的前景提出了有关TH的未来的重大疑问

AI如何解决零售媒体的痛苦AI如何解决零售媒体的痛苦Apr 25, 2025 am 11:10 AM

尽管总体广告增长超过了零售媒体的增长,但仍在放缓。 这个成熟阶段提出了挑战,包括生态系统破碎,成本上升,测量问题和整合复杂性。 但是,人工智能

'AI是我们,比我们更多''AI是我们,比我们更多'Apr 25, 2025 am 11:09 AM

在一系列闪烁和惰性屏幕中,一个古老的无线电裂缝带有静态的裂纹。这堆积不稳定的电子设备构成了“电子废物土地”的核心,这是身临其境展览中的六个装置之一,&qu&qu

Google Cloud在下一个2025年对基础架构变得更加认真Google Cloud在下一个2025年对基础架构变得更加认真Apr 25, 2025 am 11:08 AM

Google Cloud的下一个2025:关注基础架构,连通性和AI Google Cloud的下一个2025会议展示了许多进步,太多了,无法在此处详细介绍。 有关特定公告的深入分析,请参阅我的文章

IR的秘密支持者透露,Arcana的550万美元的AI电影管道说话,Arcana的AI Meme,Ai Meme的550万美元。IR的秘密支持者透露,Arcana的550万美元的AI电影管道说话,Arcana的AI Meme,Ai Meme的550万美元。Apr 25, 2025 am 11:07 AM

本周在AI和XR中:一波AI驱动的创造力正在通过从音乐发电到电影制作的媒体和娱乐中席卷。 让我们潜入头条新闻。 AI生成的内容的增长影响:技术顾问Shelly Palme

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具