GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?-일체 포함-php.cn

집

기술 주변기기

일체 포함

GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

PHPz

Sep 23, 2023 pm 12:05 PM

ai모델

요약 생성은 긴 텍스트를 짧은 요약으로 압축하는 것이 주요 목적인 자연어 생성(NLG)의 작업입니다. 뉴스 기사, 소스 코드, 교차 언어 텍스트 등 다양한 콘텐츠에 적용할 수 있습니다.

대형 모델(LLM)의 등장으로 특정 데이터 세트를 미세 조정하는 기존 방법은 더 이상 존재하지 않습니다. 더 오래 적용 가능합니다.

요약을 생성하는 데 LLM이 얼마나 효과적인지 묻지 않을 수 없습니다.

이 질문에 답하기 위해 북경대학교 연구진은 "요약은 (거의) 죽었다"라는 논문에서 자세한 논의를 진행했습니다. 그들은 인간이 생성한 평가 데이터세트를 사용하여 다양한 요약 작업(단일 뉴스, 다중 뉴스, 대화, 소스 코드 및 교차 언어 요약)에 대한 LLM의 성능을 평가했습니다. LLM 생성 요약과 인간이 작성한 요약을 정량적, 정성적으로 비교한 후입니다. Fine-tuned 모델로 생성된 요약과 Fine-tuned 모델로 생성된 요약을 비교한 결과 LLM으로 생성된 요약이 인간 평가자에게 상당히 선호되는 것으로 나타났습니다

ACL, EMNLP, NAACL에 게시된 100개의 기사를 비교한 결과 연구진은 지난 3년간 요약 방법과 관련된 논문을 샘플링하고 검토한 결과 약 70%의 논문이 요약 요약 방법을 제안하고 표준 데이터 세트에서 그 유효성을 검증하는 것이 주된 기여임을 확인했습니다. 따라서 연구에서는 "요약이 (거의) 죽었다"고 말합니다

그럼에도 불구하고 연구자들은 이 분야가 여전히 더 높은 품질의 참조 데이터 세트와 향상된 평가의 필요성 등 몇 가지 과제에 직면해 있다고 말했습니다. to besolved

논문 링크: https://arxiv.org/pdf/2309.09558.pdf GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

방법 및 결과

본 연구는 최신 데이터를 사용하여 데이터 세트를 구축했으며, 각 데이터는 세트는 50개의 샘플로 구성됩니다.

단일 뉴스, 다중 뉴스 및 대화 요약 작업을 수행할 때 시뮬레이션을 위해 CNN/DailyMail 및 Multi-News 데이터 세트 구성 방법과 유사한 방법을 사용했습니다. 언어 간 요약 작업을 위해 Zhu et al.이 제안한 것과 동일한 전략을 채택합니다. 코드 요약 작업은 Bahrami et al.이 제안한 방법입니다.

데이터 세트가 구성되면 다음 단계는 방법입니다. 특히 이 기사에서는 단일 뉴스 작업에 BART와 T5를 사용하고, 여러 뉴스 작업에 T5와 BART를, 교차 언어 작업에 MT5와 MBART를, 소스 코드 작업에 Codet5를 사용합니다.

이 실험에서 연구에서는 인간 평가자를 사용하여 다양한 초록의 전반적인 품질을 비교했습니다. 그림 1의 결과에 따르면 LLM이 생성한 요약은 모든 작업에서 인간이 생성한 요약과 미세 조정된 모델이 생성한 요약보다 성능이 뛰어납니다

이것은 LLM이 왜 인간이 생성한 요약보다 성능이 뛰어날 수 있는지에 대한 의문을 제기합니다. 전통적으로 완벽하다고 생각되었습니다. 또한, 예비 관찰에 따르면 LLM에서 생성된 요약은 매우 부드럽고 일관적입니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 문서에서는 인간 및 LLM에서 생성된 요약 문장에서 환각 문제를 식별하기 위해 주석자를 추가로 모집하고 결과는 생성된 요약과 비교하여 표 1에 표시됩니다. by GPT-4 이에 비해 사람이 작성한 요약은 동일하거나 더 높은 수의 환각을 나타냅니다. 여러 뉴스 항목 및 코드 요약과 같은 특정 작업에서 사람이 작성한 요약은 사실적 일관성이 상당히 낮습니다.

표 2는 인간이 작성한 요약과 GPT-4가 생성한 요약에서 환각의 비율을 보여줍니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 논문에서는 또한 인간이 작성한 참고 요약이 유창성이 부족한 문제가 있음을 발견했습니다. 그림 2(a)에 표시된 것처럼 사람이 작성한 참조 요약은 때때로 불완전한 정보로 인해 어려움을 겪습니다. 그리고 그림 2(b)에서는 사람이 작성한 일부 참조 요약에서 환각이 나타납니다. GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

이 연구에서는 또한 미세 조정된 모델에서 생성된 요약은 일반적으로 고정적이고 엄격한 길이를 갖는 반면, LLM은 입력 정보를 기반으로 출력 길이를 조정할 수 있음을 발견했습니다. 또한 입력에 여러 주제가 포함된 경우 미세 조정 모델에 의해 생성된 요약은 그림 3과 같이 주제에 대한 적용 범위가 낮은 반면 LLM은 요약을 생성할 때 모든 주제를 캡처할 수 있습니다

GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

그림 4에 따르면 결과에 따르면 대형 모델에 대한 인간 선호도 점수가 50%를 초과하는 것으로 나타났습니다. 이는 사람들이 요약에 대해 강한 선호도를 가지고 있음을 보여주며 텍스트 요약에서 LLM의 능력을 강조합니다

GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?

위 내용은 GPT-4의 성능은 얼마나 부드러운가요? 인간의 글쓰기를 능가할 수 있을까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

가장 많이 사용되는 10 개의 Power BI 차트 -Axaltics VidhyaApr 16, 2025 pm 12:05 PM

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

AI의 전문가 시스템Apr 16, 2025 pm 12:00 PM

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

최고의 바이브 코더 3 명이 코드 에서이 AI 혁명을 분해합니다.Apr 16, 2025 am 11:58 AM

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

활주로 AI의 GEN-4 : AI Montage는 어떻게 부조리를 넘어갈 수 있습니까?Apr 16, 2025 am 11:45 AM

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

ISRO AI 무료 코스 5 일 동안 등록하는 방법은 무엇입니까? - 분석 VidhyaApr 16, 2025 am 11:43 AM

ISRO의 무료 AI/ML 온라인 코스 : 지리 공간 기술 혁신의 관문 IIRS (Indian Institute of Remote Sensing)를 통해 Indian Space Research Organization (ISRO)은 학생과 전문가에게 환상적인 기회를 제공하고 있습니다.

AI의 로컬 검색 알고리즘Apr 16, 2025 am 11:40 AM

로컬 검색 알고리즘 : 포괄적 인 가이드 대규모 이벤트를 계획하려면 효율적인 작업량 배포가 필요합니다. 전통적인 접근 방식이 실패하면 로컬 검색 알고리즘은 강력한 솔루션을 제공합니다. 이 기사는 언덕 등반과 Simul을 탐구합니다

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다.Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

프롬프트 : Chatgpt는 가짜 여권을 생성합니다Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는