현재 특정 작업에 맞춰진 독점 모델을 대체하는 범용 대형 모델의 추세가 점차 나타나고 있습니다. 이러한 접근 방식은 AI 모델 적용의 한계 비용을 크게 줄였습니다. 이는 다음과 같은 질문을 제기합니다. 훈련 없이 제로 샘플 정보 추출을 달성하는 것이 가능합니까?
정보 추출 기술은 지식 그래프 구축에 중요한 부분입니다. 전혀 교육 없이 구현할 수 있다면 데이터 분석의 문턱을 크게 낮추고 자동화된 지식 기반 구축을 실현하는 데 도움이 됩니다.
GPT-3.5에서 프롬프트 엔지니어링 방법을 사용하여 일반 제로샷 IE 시스템인 GPT4IE(GPT for Information Extraction) 을 구축하였고, GPT3.5가 원본 문장 정보에서 자동으로 구조를 추출할 수 있음을 확인했습니다. . 중국어와 영어를 모두 지원하며 도구 코드는 오픈 소스입니다.
도구 URL: https://cocacola-lab.github.io/GPT4IE/
코드: https://github.com/cocacola-lab/GPT4IE
정보 추출(IE)의 목표는 엔터티 관계 삼중 추출(Entity-relation Extract, RE), 명명된 엔터티 인식(NER)을 포함하여 비정형 텍스트에서 구조화된 정보를 추출하는 것입니다. ) 및 이벤트 추출(EE)[1][2][3][4][5]. 많은 연구가 Clinical IE [6]와 같이 Zero-Shot/Few-Shot 작업을 자동화하기 위해 IE 기술에 의존하기 시작했습니다.
최근 LLM(Large Pre-trained Language Models)은 많은 다운스트림 작업에서 매우 좋은 성능을 발휘했으며 미세 조정 없이 가이드로 몇 가지 예만 사용하면 달성할 수 있습니다. 여기서 우리는 질문을 제기합니다: 프롬프트를 통해서만 제로샷 IE 작업을 달성하는 것이 가능합니까? 우리는 GPT-3.5 - GPT4IE (GPT for Information Extraction) 을 위한 일반적인 제로 샘플 IE 시스템을 구축하기 위해 프롬프트 방법을 사용하려고 합니다. GPT3.5와 힌트를 결합하여 원문에서 구조화된 정보를 자동으로 추출할 수 있습니다.
2 - 3.5에서는 IE를 실행하세요. RE, NER, EE 세 가지 작업이 지원되며, 세 가지 작업 모두 중국어와 영어로 진행됩니다. 사용자는 문장을 입력하고 추출 유형 목록(예: 관계 목록, 선두 엔터티 목록, 꼬리 엔터티 목록, 엔터티 유형 목록 또는 이벤트 목록)을 작성해야 합니다. 자세한 내용은 다음과 같습니다.RE 작업의 목표는 텍스트에서 "(중국, 수도, 베이징)", "("Ruyi's Royal Love in the Palace", 주연)과 같은 트리플을 추출하는 것입니다. , 저우쉰)". 필수 입력 형식은 다음과 같습니다("*"가 있는 항목은 필수가 아닌 필드를 나타냅니다. 이러한 옵션에 대해 기본값을 설정했지만 유연성을 위해 아래와 동일하게 사용자 정의 지정 목록을 지원합니다):
입력 문장 : 입력 텍스트
입력 문장: 입력 텍스트
3.1 RE 예시 1
입력:
입력 문장: Bob은 Google에서 근무했습니다. 중국의 수도 베이징에 있습니다.
rtl: ['location- located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company- 창립자', '국가 행정 구역', '사람-자녀', '국가 수도', '죽은_사람-장소_죽음', '이웃-이웃_of', '사람-장소_출생']
stl: ['조직 ', '사람', '위치', '국가']
otl: ['사람', '위치', '국가', '조직', '도시']
출력: . 3.2 RE 예 II
입력: 입력 문장: "Rugao Biography"는 Wang Jun 감독, Wang Jun 주연, Zhou Xun, Huo Jianhua 주연의 의상 궁정 감성 TV 시리즈입니다. , Zhang Junning, Dong Jie, Xin Zhilei, Tong Yao, Li Chun, Wu Junmei 등.
rtl:
['앨범', '작성일', '고도', '공식 언어', '지역', '아버지', '가수', '프로듀서', '감독', '캐피탈' ', '주연', '회장', '조상', '아내', '어머니', '기후', '지역', '주인공', '우편번호', '약어', '제작회사', '등록된' 캐피탈', '시나리오 작가', '창업자', '대학원', '국적', '직업 코드', '왕조', '작가', '작사가', '도시', '게스트', '본사 위치', '인구', '대변인', '개작', '교장', '남편', '진행자', '주제가', '공부년', '작곡', '넘버', '발매시기', ' 흥행', '연기', '더빙', '수상']
stl: ['국가', '행정구역', '문학 작품', '캐릭터', '영화 및 TV 작품 ', '학교', '저작물', '장소', '역사적 인물', '명소', '노래', '학과 전공', '기업', 'TV 예능', '기관', '기업/ 브랜드', '예능 인물']
otl: ['국가', '캐릭터', '텍스트', '날짜', '장소', '기후', '도시', '노래', ' Enterprise ','Number ','Music Album ','School ','Work ','Language '] output :
3.3 예제 1
입력 문장:Bob은 중국의 수도 베이징에서 Google에서 근무했습니다.etl
: ['LOC', 'MISC', 'ORG', 'PER' ]출력:
3.4 NER 예시 2
입력:
입력 문장: 지난 5년간 덩샤오핑 이론의 지도 하에 지공당은 사회주의 초급 단계의 기본노선을 견지하고 지공당 제10차 당대회를 성공적으로 이행하기 위해 노력해 왔습니다. 참여정당의 기능을 충분히 발휘하고 자체건설의 기본과제를 강화한다.
etl: ['조직', '위치', '사람']
출력:
3.5 EE 예 1
입력:
입력 문장:어제 Bob과 그의 사람들은 광저우에서 이혼했습니다.
etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time wife' , '장소'], 'Business:Declare-Bankruptcy': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', ' 시간', '장소'], '생명:이혼': ['사람', '시간', '장소'], '생명:상해': ['대리인', '피해자', '도구', '시간' , '장소']}
출력:
3.6 EE 예시 2
입력:
입력 S 입장: : 2022년 카타르 월드컵 결승전에서 아르헨티나는 승부차기에서 프랑스를 가까스로 이겼다.
etl: {'조직 행동-파업': ['시간', '소속', '파업 참가자 수', '파업 인원'], '경쟁 행위-홍보': ['시간', ' 판촉당', '판촉행사'], '금융/거래제한주':['시간', '한정주식'], '조직관계-해고': ['시간', '해고당사자', '해고된 인사 '']}
출력:
3.7 EE 예제 3(흥미로운 오류 예제)
입력:
입력 문장:: 나 오늘 그 사람과 이혼했어요
etl: {'조직 행동-파업': ['시간', '소속', '파업 참가자 수', '파업 인원'], '경쟁 행위-홍보': [ ' 시간', '승진당', '승진행사'], '금융/거래제한주식': ['시간', '재고한정'], '조직관계-해고': ['시간', '해고당' , 'Fired Personnel']}
출력:
분명히 위의 출력은 잘못되었습니다. 맞춤 etl은 다음과 같습니다. {'divorce': ['time', 'person'] }, 출력은 다음과 같습니다:
위 내용은 GPT와 대화하여 제로샘플 정보 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!