복잡한 질문에 답할 때 인간은 다양한 양식으로 정보를 이해하고 완전한 CoT(사상 사슬)를 형성할 수 있습니다. 딥 러닝 모델이 "블랙박스"를 열고 추론 프로세스에 대한 일련의 사고를 제공할 수 있습니까? 최근 UCLA와 Allen Institute for Artificial Intelligence(AI2)는 모델의 다중 모드 추론 기능을 테스트하기 위해 자세한 설명이 포함된 최초의 다중 모드 과학 질문 및 답변 데이터 세트인 ScienceQA를 제안했습니다. ScienceQA 과제에서 저자는 GPT-3 모델에 사고 사슬 기반의 신속한 학습을 도입하여 모델이 답변을 생성하면서 그에 상응하는 추론 설명을 생성할 수 있도록 하는 GPT-3(CoT) 모델을 제안했습니다. GPT-3(CoT)는 ScienceQA에서 75.17%의 정확도를 달성했으며 인간 평가에서는 더 높은 품질의 설명을 생성할 수 있음을 보여줍니다.
복잡한 작업을 인간만큼 효과적으로 학습하고 완료하는 것은 인공지능이 추구하는 장기 목표 중 하나입니다. 인간은 의사결정 과정에서 완전한 CoT(사상연쇄) 추론 프로세스를 따라 주어진 답변에 대해 합리적인 설명을 할 수 있습니다.
그러나 대부분의 기존 기계 학습 모델은 특정 작업을 완료하기 위해 수많은 입출력 샘플 교육에 의존합니다. 이러한 블랙박스 모델은 구체적인 추론 과정을 공개하지 않고 최종 답변을 직접 생성하는 경우가 많습니다.
과학질문응답은 인공지능 모델이 다단계 추론 능력과 해석 가능성을 갖추고 있는지 잘 진단할 수 있습니다. 과학적 질문에 대답하려면 모델은 다중 모드 콘텐츠를 이해해야 할 뿐만 아니라 외부 지식을 추출하여 정답에 도달해야 합니다. 동시에, 신뢰할 수 있는 모델은 추론 과정을 드러내는 설명도 제공해야 합니다. 그러나 현재의 과학 질문 및 답변 데이터 세트의 대부분은 답변에 대한 자세한 설명이 부족하거나 텍스트 형식으로 제한됩니다.
따라서 저자는 초등 및 중등 학교 과학 과정의 21,208개의 객관식 질문이 포함된 새로운 과학 질문 및 답변 데이터 세트 ScienceQA를 수집했습니다. 일반적인 질문에는 다중 모드 컨텍스트, 올바른 옵션, 일반적인 배경 지식(강의) 및 구체적인 설명(설명)이 포함됩니다.
ScienceQA 데이터 세트의 예.
위에 표시된 예에 대답하려면 먼저 힘의 정의를 기억해야 합니다. "힘은 밀거나 당기는 것입니다. 미는 방향은 ... 당기는 방향은 다음과 같습니다. ...", 그리고 다음과 같은 다단계 추론 과정을 형성합니다. "아기의 손이 캐비닛 문에 힘을 가합니다. → 이 힘으로 인해 문이 열립니다. → 이 힘의 방향은 아기의 손을 향합니다." 마침내 정답을 얻었습니다. "이 힘은 당기는 힘입니다."
ScienceQA 작업에서 모델은 자세한 설명을 출력하면서 답을 예측해야 합니다. 본 논문에서 저자는 인간이 가지고 있는 다단계 추론 능력을 모방하기 위해 대규모 언어 모델을 활용하여 CoT(사고 사슬)로 배경 지식과 설명을 생성합니다.
실험에 따르면 현재의 다중 모드 질문 답변 방법은 ScienceQA 작업에서 좋은 성능을 달성할 수 없는 것으로 나타났습니다. 대조적으로, 사고 사슬 기반 프롬프트 학습을 통해 GPT-3 모델은 ScienceQA 데이터 세트에 대해 75.17%의 정확도를 달성할 수 있으며 더 높은 품질의 설명을 생성할 수 있습니다: 설명의 65.2%가 인간 평가에 따라 관련성이 있습니다. 그리고 완료. Thoughtchain은 또한 UnifiedQA 모델이 ScienceQA 데이터 세트에서 3.99% 개선을 달성하는 데 도움이 될 수 있습니다.
데이터세트 통계
ScienceQA의 주요 통계정보는 다음과 같습니다. ㅋㅋㅋ 다양한 질문. 10,332개(48.7%)는 시각적 배경 정보를 가지고 있었고, 10,220개(48.2%)는 텍스트 배경 정보를, 6,532개(30.8%)는 시각적 + 텍스트 배경 정보를 가지고 있었습니다. 대부분의 질문에는 자세한 설명이 주석으로 달려 있습니다. 83.9%의 질문에 배경 지식 주석(강의)이 있고, 90.5%의 질문에 자세한 답변(설명)이 있습니다.
ScienceQA 데이터 세트 질문 및 배경 배포. 데이터 세트 주제 분포
기존 데이터 세트와 다르게 ScienceQA는 26개 주제(토픽), 127개 카테고리, 379개 기술을 포함하여 자연과학, 사회과학, 언어학의 세 가지 주요 분야를 다루고 있습니다 .
ScienceQA의 주제 분포.
데이터세트 워드 클라우드 분포
아래 그림의 워드 클라우드 분포에서 볼 수 있듯이 ScienceQA의 질문은 풍부한 의미적 다양성을 가지고 있습니다. 모델은 다양한 문제 공식화, 시나리오 및 배경 지식을 이해해야 합니다.
ScienceQA의 워드 클라우드 배포.데이터 세트 비교
ScienceQA는 자세한 설명이 주석으로 달린 최초의 다중 모드 과학 질문 및 답변 데이터 세트
입니다. 기존 데이터 세트와 비교하여 ScienceQA는 데이터 크기, 질문 유형 다양성, 주제 다양성과 같은 여러 측면에서 장점을 가지고 있습니다.
ScienceQA 데이터 세트와 다른 과학적 질문 및 답변 데이터 세트의 비교.
2. 모델 및 방법기준선
저자는 Top-Down Attention, MCAN, BAN, DFAF, ViLT, Patch-TRM 및 VisualBERT와 같은 VQA 모델, UnifiedQA 및 GPT-3와 같은 대규모 언어 모델을 포함하여 ScienceQA 데이터세트에 대한 다양한 벤치마크 방법을 평가했습니다. 무작위적인 기회와 인간의 성과. 언어 모델 UnifiedQA 및 GPT-3의 경우 배경 이미지가 텍스트 기반 캡션으로 변환됩니다.
GPT-3 (CoT)
최근 연구 결과에 따르면 GPT-3 모델은 적절한 신호가 주어지면 다양한 다운스트림 작업에서 뛰어난 성능을 발휘할 수 있습니다. 이를 위해 저자는 프롬프트에 CoT(사상 사슬)를 추가하여 모델이 답변을 생성하는 동시에 해당 배경 지식과 설명을 생성할 수 있는 GPT-3(CoT) 모델을 제안합니다.
특정 프롬프트 템플릿은 아래 그림에 나와 있습니다. 여기서 Ii는 훈련 예제를 나타내고 It은 테스트 예제를 나타냅니다. 트레이닝 예제에는 질문, 옵션, 컨텍스트 및 답변 요소가 포함되어 있으며, 답변은 정답, 배경 지식(강의) 및 설명(설명)으로 구성됩니다. GPT-3(CoT)는 입력 프롬프트 정보를 기반으로 테스트 예시에 대한 예상 답변, 배경 지식 및 설명을 완성합니다.
GPT-3(CoT)에서 채택한 팁 템플릿입니다.
실험 결과
ScienceQA 테스트 세트에 대한 다양한 벤치마크 및 방법의 정확도 결과가 아래 표에 나와 있습니다. 현재 최고의 VQA 모델 중 하나인 VisualBERT는 61.87%의 정확도만 달성할 수 있습니다. 교육 과정 중에 CoT 데이터를 도입하면 UnifiedQA_BASE 모델은 74.11%의 정확도를 달성할 수 있습니다. 그리고 GPT-3(CoT)는 2개의 훈련 예시 프롬프트로 75.17%의 정확도를 달성했는데, 이는 다른 벤치마크 모델보다 높습니다. 인간은 ScienceQA 데이터 세트에서 좋은 성적을 거두며 88.40%의 전체 정확도를 달성하고 다양한 질문 범주에서 안정적으로 성과를 냈습니다.
ScienceQA 테스트 세트에 대한 다양한 방법의 결과입니다.
생성된 설명의 평가
저자는 BLEU-1, BLEU-2, ROUGE-L 및 문장 유사성과 같은 자동 평가 지표를 사용하여 다양한 방법으로 생성된 설명을 평가했습니다. 자동 평가 지표는 예측 결과와 주석이 달린 내용 간의 유사성만 측정할 수 있으므로 저자는 생성된 설명의 관련성, 정확성 및 완전성을 평가하기 위해 수동 평가 방법을 추가로 채택했습니다. 볼 수 있듯이 GPT-3(CoT)에서 생성된 설명의 65.2%가 골드 표준을 충족합니다.
다양한 평가 방법의 결과로 설명이 생성됩니다.
다양한 힌트 템플릿
저자는 다양한 힌트 템플릿이 GPT-3(CoT) 정확도에 미치는 영향을 비교했습니다. QAM-ALE 템플릿에서 GPT-3(CoT)는 가장 큰 평균 정확도와 가장 작은 분산을 얻을 수 있음을 알 수 있습니다. 또한 GPT-3(CoT)은 2개의 훈련 예제가 표시될 때 가장 잘 수행됩니다.
다양한 프롬프트 템플릿의 결과 비교.
모델 상한
GPT-3(CoT) 모델의 성능 상한을 탐색하기 위해 저자는 모델(QCMLE*-A)의 입력에 주석이 달린 배경 지식과 설명을 추가합니다. GPT-3(CoT)는 최대 94.13%의 정확도를 달성할 수 있음을 알 수 있습니다. 이는 또한 모델 개선을 위한 가능한 방향을 제시합니다. 모델은 단계별 추론을 수행할 수 있습니다. 즉, 먼저 정확한 배경 지식을 검색하고 정확한 설명을 생성한 다음 이러한 결과를 입력으로 사용할 수 있습니다. 이 과정은 인간이 복잡한 문제를 해결하는 방법과 매우 유사합니다.
GPT-3(CoT) 모델의 성능 한도.
다양한 ALE 위치
저자는 예측 생성 시 GPT-3(CoT) 결과에 다양한 ALE 위치가 미치는 영향에 대해 추가로 논의합니다. ScienceQA의 실험 결과에 따르면 GPT-3(CoT)가 먼저 배경 지식 L 또는 설명 E를 생성한 다음 답변 A를 생성하면 예측 정확도가 크게 떨어지는 것으로 나타났습니다. 주된 이유는 배경 지식 L과 설명 E가 단어 수가 많기 때문입니다. LE가 먼저 생성되면 GPT-3 모델은 최대 단어 수를 초과하거나 텍스트 생성을 조기에 중단하여 최종 답변이 나올 수 있습니다. A를 얻을 수 없습니다.
LE의 포지션이 다릅니다.
성공 사례
다음 4가지 예에서 GPT-3(CoT) 은 정답을 생성할 수 있을 뿐만 아니라 적절하고 정확하며 완전한 설명을 제공할 수 있습니다. 이는 GPT-3(CoT)가 ScienceQA 데이터 세트에 대해 강력한 다단계 추론 및 설명 기능을 나타냄을 보여줍니다.
GPT-3(CoT) 정답 및 설명 생성 예시.
실패 사례 I
다음 세 가지 예에서 GPT-3(CoT) 은 정답을 생성했지만 생성된 설명은 관련이 없거나, 부정확하거나, 불완전했습니다. 이는 GPT-3(CoT)가 논리적으로 일관된 긴 시퀀스를 생성하는 데 여전히 더 큰 어려움에 직면해 있음을 보여줍니다.
GPT-3(CoT)은 정답의 예를 생성할 수 있지만 생성된 설명이 올바르지 않습니다.
Failure Case II
아래 4가지 예에서 GPT-3(CoT)은 정답을 생성할 수 없고, 정답 설명도 생성할 수 없습니다. 그 이유는 다음과 같습니다. (1) 현재 이미지 캡션 모델은 그림 주석 텍스트로 그림을 표현하는 경우 그림의 의미 정보를 정확하게 설명할 수 없습니다. (2) GPT-3(CoT)이 긴 시퀀스를 생성하면 일관성이 없거나 일관성이 없는 문제가 발생하기 쉽습니다. 특정 질문. 도메인 지식 문제.
GPT-3(CoT)은 잘못된 답변과 설명의 예를 생성할 수 있습니다.
저자는 자세한 설명이 포함된 최초의 다중 모드 과학 질문 및 답변 데이터 세트인 ScienceQA를 제안했습니다. ScienceQA에는 세 가지 주요 과학 분야와 다양한 주제를 다루는 초등학교 및 중등학교 과학 과목의 객관식 문제 21,208개가 포함되어 있습니다. 대부분의 질문에는 자세한 배경 지식과 설명이 첨부되어 있습니다. ScienceQA는 다중 모드 이해, 다단계 추론 및 해석 가능성에서 모델의 기능을 평가합니다. 저자는 ScienceQA 데이터 세트에서 다양한 기본 모델을 평가하고 GPT-3(CoT) 모델이 답변을 생성하는 동안 해당 배경 지식과 설명을 생성할 수 있다고 제안합니다. 수많은 실험 분석과 사례 연구는 모델 개선에 유용한 영감을 제공했습니다.
위 내용은 상세한 설명이 포함된 최초의 다중 모드 과학 질문 및 답변 데이터 세트, 딥 러닝 모델 추론에는 사고 사슬이 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!