>  기사  >  기술 주변기기  >  대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

PHPz
PHPz원래의
2024-06-20 21:14:41542검색
대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com, zhaoyunfeng@jiqizhixin.com

Shanghai Jiao Tong University의 Generative Artificial Intelligence Laboratory(GAIR Lab) 연구팀의 주요 연구 방향은 다음과 같습니다. 평가. 팀 홈페이지 : https://plms.ai/

향후 20년 안에 AI는 인간의 지능을 넘어설 것으로 예상됩니다. 튜링상 수상자 Hinton은 인터뷰에서 "향후 20년 안에 AI가 인간 지능을 능가할 것으로 예상된다"고 언급하며 주요 기술 기업들이 대형 모델(다중 모드 대형 모델 포함)의 "효율성"을 평가하기 위해 조기 준비를 해야 한다고 제안했습니다. 이 준비를 위해서는 "지능 수준"이 필수 전제 조건입니다.

다차원에서 AI를 엄격하게 평가할 수 있는 학제간 문제 세트를 갖춘 인지 추론 능력 평가 벤치마크가 매우 시급해졌습니다.

1. 초등학교 시험 문제부터 대학 입시까지, 대형 모델이 계속해서 인간 지능의 높은 자리를 차지하고 있습니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

대형 모델을 핵심으로 하는 생성 인공 지능 기술의 등장으로 인간은 대화형 텍스트와 그림만 있는 반면, 비디오 대화형 생성 도구는 인간에게 "지능" 기능을 갖춘 모델을 훈련할 수 있는 기회도 제공합니다. 이는 인간의 확장된 두뇌로 간주되어 다양한 분야의 문제를 독립적으로 해결하고 모델이 될 수 있습니다. 의 가장 강력한 도구(예: AI4Science). 향후 10년 동안 과학적 발견을 가속화합니다.

지난 2년 동안 우리는 대형 모델로 대표되는 이런 종류의 실리콘 기반 지능이 처음부터 2022년까지 초등학교 문제 해결에만 사용될 수 있음을 목격했습니다. al.[1]이 처음으로 '대학입학시험' 시험장에 AI를 들여와 국어과목 II 영어에서 134점을 획득했다. 수학적 논리를 잘 이해하지 못하는 부분 과목 학생. 올해까지 2024학년도 대학입시가 막 끝났습니다. 이번 수능에서는 수많은 학생들이 수년간의 학습 성과를 보여주기 위해 열심히 노력하는 가운데, 대형 모델도 시험장에 처음으로 반입되었습니다. 모든 학문 분야에서 수학과 과학 분야에서 큰 발전을 이루십시오. 여기서 우리는 AI 지능 진화의 한계가 어디인지 생각하지 않을 수 없습니다. 인간은 아직 가장 어려운 문제를 해결하지 못했습니다. 그것이 AI의 한계일까요?

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

2. AI 대학 입시부터 AI 올림픽까지

스포츠 대회의 정점일 뿐만 아니라, 4년마다 열리는 올림픽도 곧 다가옵니다. 또한 인간의 극단 추구의 상징이기도 합니다. 주제 올림피아드는 지식의 깊이와 지능의 한계가 완벽하게 결합된 대회입니다. 학문적 성취에 대한 엄격한 평가일 뿐만 아니라 사고의 민첩성과 혁신 능력에 대한 궁극적인 도전이기도 합니다. 여기에서 과학의 엄격함과 올림픽 게임의 열정이 만나 우수성을 추구하는 정신과 탐험에 대한 용기를 함께 형성합니다.

올림피아드라는 주제는 인간과 기계 지능의 정점 대결을 위한 최고의 장소를 제공합니다. 미래에 AGI가 실현될 수 있는지 여부와 관계없이 AI의 올림피아드 참가는 AGI로 가는 길에 꼭 필요한 정지점이 될 것입니다. 왜냐하면 이러한 올림피아드 참가는 모델의 매우 중요한 인지 추론 능력을 검토하고 이러한 능력이 다양하고 복잡한 현실 세계에 점차 반영되고 있기 때문입니다. 예를 들어 시나리오에서 AI 에이전트는 소프트웨어 개발에 사용되고, 복잡한 의사결정 프로세스를 협력적으로 처리하며, 심지어 과학 연구 분야(AI4Science)를 홍보하기도 합니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

3. AI 중심 올림픽 경기장 구축

이러한 맥락에서 상하이 자오퉁 대학교 생성 인공 지능 연구소(GAIR Lab) 연구팀은 대형 모델을 대학 입시 시험장에서 더욱 도전적인 "올림픽 아레나"는 새로운 대형 모델(다중 모드 대형 모델 포함) 인지 추론 능력 평가 벤치마크인 OlympicArena를 출시했습니다. 이 벤치마크는 국제 주제 올림피아드의 어려운 질문을 사용하여 학제간 분야에서 인공지능의 인지 추론 능력을 종합적으로 테스트합니다. OlympicArena는 수학, 물리학, 화학, 생물학, 지리, 천문학, 컴퓨터 과학의 7개 핵심 과목을 다룹니다. 여기에는 62개 국제 주제 올림피아드(예: IMO, IPhO, IChO, IBO, ICPC 등)의 중국어 및 영어 이중 언어 문제 11,163개가 포함됩니다. .), 연구자들에게 AI 모델을 종합적으로 평가할 수 있는 이상적인 플랫폼을 제공합니다.

동시에 올림픽 아레나는 향후 AI가 과학(AI4Science)과 공학(AI4Engineering) 분야에서 강력한 역량을 발휘할 수 있도록 무시할 수 없는 역할을 하게 될 것이며, AI를 장려하여 인간 수준을 넘어서는 초지능을 고취시키는 역할도 합니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

연구팀은 현재 모든 대형 모델이 주제 올림피아드에서 좋은 답변을 제공할 수 없다는 사실을 발견했습니다. GPT-4o도 정확도가 39%에 불과하고, GPT-4V도 33%에 불과해 상위권과는 거리가 멀습니다. 합격선(정확률 60%)은 아직 멀었습니다. 대부분의 오픈 소스 대형 모델의 성능은 더욱 만족스럽지 않습니다. 예를 들어 LLaVa-NeXT-34B, InternVL-Chat-V1.5 등과 같은 현재 강력한 다중 모드 대형 모델은 20% 정확도에 도달하지 못했습니다. .

또한 대부분의 다중 모드 대형 모델은 복잡한 추론 작업을 해결하기 위해 시각적 정보를 최대한 활용하는 데 능숙하지 않습니다. 이는 대형 모델과 인간의 가장 큰 차이점이기도 합니다(인간은 처리를 우선시하는 경향이 있음). 시각정보). 따라서 OlympicArena의 테스트 결과는 모델이 과학적 문제를 해결하는 데 여전히 인간보다 뒤떨어져 있으며 인간의 과학 연구를 더 잘 지원하기 위해 모델의 고유한 추론 능력을 지속적으로 개선해야 함을 보여줍니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

  • 논문 주소: https://arxiv.org/pdf/2406.12753
  • 프로젝트 주소: https://gair-nlp.github.io/OlympicArena/
  • 코드 주소: https ://github.com/GAIR-NLP/OlympicArena

OlympicArena 기능

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

OlympicArena의 기능은 다중 모드 지원, 다중 인지 능력 검사 및 세분화된 평가(두 가지 모두 고려)를 간략하게 설명합니다. 옳고 그름에 대한 평가, 추론의 각 단계에 대한 평가).

  • 포괄적: OlympicArena에는 수학, 물리학, 화학, 생물학, 지리, 천문학, 컴퓨터 등 7개 핵심 주제에 걸쳐 34개 전문 분야가 포함된 62개 올림픽 대회의 총 11,163개 질문이 포함되어 있습니다. 동시에 객관식 문제와 같은 객관식 문제에 주로 초점을 맞춘 이전 벤치마크와 달리 OlympicArena는 표현식, 방정식, 간격, 화학 방정식 작성, 심지어 프로그래밍 문제까지 다양한 문제 유형을 지원합니다. 또한 OlympicArena는 다중 양식(질문의 거의 절반에 그림이 포함됨)을 지원하고 현실과 가장 일치하는 입력 형식(인터리브된 텍스트 이미지)을 채택하여 대형 모델이 작업을 완료하는 데 도움이 되는 시각적 정보 사용을 완벽하게 테스트합니다. . 추론하는 능력.
  • 매우 어려움: 고등학교(대학 입학 시험) 문제나 대학 문제에 초점을 맞춘 이전 벤치마크와 달리 OlympicArena는 대규모 모델의 방대한 지식보다는 복잡한 추론 능력에 대한 순수한 검사에 더 중점을 둡니다. , 회상 능력 또는 간단한 응용 능력. 따라서 OlympicArena의 모든 문제는 올림피아드 난이도 수준입니다. 또한, 연구팀은 다양한 유형의 추론 능력에서 대형 모델의 성능을 세밀하게 평가하기 위해 논리적 추론 능력 8가지와 시각적 추론 능력 5가지를 정리한 뒤, 기존 대형 모델의 성능을 구체적으로 분석했다. 다양한 유형의 추론 능력 모델. 추론 능력에 따른 성능 차이.
  • Rigor: 대형 모델의 건전한 발전을 이끌어내는 것이 학계가 해야 할 역할입니다. 현재 공개 벤치마크에서는 인기 있는 대형 모델 중 상당수가 데이터 유출 문제를 겪게 됩니다. 대형 모델)을 훈련 데이터에 포함). 이에 연구팀은 벤치마크의 유효성을 더욱 엄격하게 검증하기 위해 일부 인기 대형 모델을 대상으로 OlympicArena의 데이터 유출을 구체적으로 테스트했습니다.
  • 세밀한 평가: 이전 벤치마크에서는 대규모 모델이 제공하는 최종 답이 정답과 일치하는지 여부만 평가하는 경우가 많았습니다. 이는 매우 복잡한 추론 문제에 대한 평가에서 일방적이며 현재 모델을 잘 반영할 수 없습니다. .보다 현실적인 추론 능력. 이에 연구진은 답변에 대한 평가 외에 질문 과정(단계)의 정확성에 대한 평가도 포함시켰다. 동시에 연구팀은 다양한 분야, 다양한 양식, 다양한 추론 능력에서 모델의 성능 차이를 분석하는 등 다양한 차원에서 다양한 결과를 분석했습니다.

관련 벤치마크와의 비교

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

위 표를 보면 알 수 있듯이 OlympicArena는 주제, 언어, 양상은 물론, 다루는 범위 측면에서 추론 능력에 큰 영향을 미칩니다. 문제 유형의 다양성은 기존의 과학적 이슈 평가에 중점을 둔 벤치마크와는 조사의 깊이와 평가 방법의 포괄성이 크게 다릅니다.

실험 분석

실험 설정

연구팀은 OlympicArena에서 다중 모드 대형 모델(LMM)과 일반 텍스트 대형 모델(LLM)을 테스트했습니다. . 다중 모드 대형 모델의 경우 인터리브된 텍스트-이미지의 입력 형식이 사용되었으며 대형 일반 텍스트 모델의 경우 그림 정보가 없는 일반 텍스트 입력(텍스트 전용 LLM)과 일반 텍스트 입력으로 테스트가 수행되었습니다. 이미지 설명 정보(이미지 캡션 + LLM)가 포함된 텍스트 입력입니다. 일반 텍스트 대형 모델 테스트를 추가하는 목적은 이 벤치마크의 적용 범위를 확장할 뿐만 아니라(모든 LLM이 순위에 참여할 수 있도록) 기존 다중 모드 대형 모델의 성능을 더 잘 이해하고 분석하는 것입니다. 대형 순수 텍스트 모델과 비교하여 그림 정보를 최대한 활용하여 문제 해결 능력을 향상시킬 수 있는지 여부입니다. 모든 실험은 제로샷 CoT 프롬프트를 사용했는데, 연구팀은 이를 각 답변 유형에 맞게 맞춤화하고 답변 추출 및 규칙 기반 매칭을 용이하게 하기 위해 출력 형식을 지정했습니다.

실험 결과

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

OlympicArena의 다양한 주제에 대한 다양한 모델의 정확도 CS 프로그래밍 질문은 편견 없는 pass@k 지수를 사용하고 나머지는 정확도 지수를 사용합니다.

표의 실험 결과에서 볼 수 있듯이 현재 시중에 나와 있는 모든 주류 대형 모델은 가장 진보된 대형 모델인 GPT-4o도 전체 정확도가 39.97%에 불과한 반면 다른 오픈소스 모델의 전반적인 정확도는 20%에 도달하기 어렵습니다. 이 명백한 차이는 이 벤치마크의 과제를 강조하고 현재 AI 추론 기능의 상한선을 높이는 데 큰 역할을 했음을 입증합니다.

또한 연구팀은 수학과 물리학이 여전히 가장 어려운 두 과목이라는 점을 관찰했습니다. 왜냐하면 수학과 물리학은 복잡하고 유연한 추론 능력에 더 의존하고, 추론에 더 많은 단계가 있으며, 더 포괄적이고 응용적인 사고 능력이 필요하기 때문입니다. 다양한. 생물학, 지리학 등의 과목은 복잡한 과목에 비해 추론 및 인과추론 능력에 대한 검토에 중점을 두고 풍부한 과학적 지식을 활용하여 실질적인 문제를 해결하고 분석하는 능력에 더 중점을 두기 때문에 정확도가 상대적으로 높습니다. 유도, 연역적 추론, 대형 모델은 자체 훈련 단계에서 얻은 풍부한 지식의 도움으로 이러한 주제를 분석하는 데 더 능숙합니다.

컴퓨터 프로그래밍 대회도 매우 어려운 것으로 입증되었으며, 일부 오픈 소스 모델은 문제를 전혀 해결할 수도 없습니다(정확도 0). 이는 현재 모델이 해결을 위한 효과적인 알고리즘을 설계하는 데 얼마나 능력이 있는지 보여줍니다. 프로그래밍 방식으로 복잡한 문제를 해결하려면 아직 개선의 여지가 많습니다. ㅋㅋㅋ 위에서 언급한 복잡한 추론을 활용한 사고력, 풍부한 과학적 지식을 활용하여 실제적인 문제를 해결하고 분석하는 능력, 문제를 해결하기 위한 효율적이고 정확한 프로그램을 작성하는 능력은 모두 과학 연구 분야에서 없어서는 안 될 능력이며, 항상 존재해 왔습니다. 이 벤치마크의 벤치마크입니다.

세밀한 실험 분석

실험 결과를 보다 세밀하게 분석하기 위해 연구팀은 다양한 양식과 추론 능력을 기반으로 추가 평가를 수행했습니다. 또한 연구팀은 질문에 대한 모델의 추론 과정에 대한 평가 및 분석도 진행했다. 주요 결과는 다음과 같습니다. 모델은 다양한 논리적 추론 및 시각적 추론 능력에서 다르게 수행됩니다. 논리적 추론 능력에는 연역적 추론(DED), 귀납적 추론(IND), 귀납적 추론(ABD), 유추적 추론(ANA), 인과적 추론(CAE), 비판적 사고(CT), 분해 추론(DEC) 및 정량적 추론( QUA). 시각적 추론 능력에는 패턴 인식(PR), 공간 추론(SPA), 도식적 추론(DIA), 기호 해석(SYB) 및 시각적 비교(COM)가 포함됩니다.
거의 모든 모델은 다양한 논리적 추론 능력에서 비슷한 성능 추세를 보입니다. 그들은 귀추적이고 인과적인 추론에 뛰어나며 제공된 정보로부터 원인과 결과 관계를 잘 식별할 수 있습니다. 대조적으로, 모델은 귀납적 추론과 분해 추론에서는 성능이 좋지 않습니다. 이는 복잡한 문제를 더 작은 하위 문제로 분해하는 능력이 필요한 올림피아드 수준 문제의 다양성과 비일상적 특성 때문입니다. 모델을 사용하여 각 하위 문제를 성공적으로 해결하고 하위 문제를 결합하는 능력이 필요합니다. 더 큰 문제를 해결하세요. 시각적 추론 능력 측면에서 모델은 패턴 인식 및 시각적 비교에서 더 나은 성능을 보였습니다.
그러나 공간적, 기하학적 추론과 관련된 작업과 추상 기호 이해가 필요한 작업을 수행하는 데 어려움을 겪습니다. 다양한 추론 능력을 세밀하게 분석한 결과, 대형 모델이 부족한 능력(예: 복잡한 문제의 분해, 기하학적 도형의 시각적 추론 등)은 과학 연구에 있어서 없어서는 안 될 중요한 능력으로, 아직 갈 길이 멀다는 것을 알 수 있습니다. AI가 모든 측면에서 과학 연구에서 인간을 진정으로 지원할 수 있기 전에는 갈 길이 멀습니다.
세 가지 다른 실험 설정에서 다양한 다중 모드 모델(LMM)과 해당 텍스트 전용 모델(LLM)을 비교합니다.
대부분의 다중 모드 모델(LMM)은 여전히 ​​추론을 돕기 위해 시각적 정보를 활용하는 데 능숙하지 않습니다.

위의 (a)에서 볼 수 있듯이 소수의 대형 다중 모드 모델(예: GPT) -4o 및 Qwen-VL -Chat)은 이미지 입력 ​​시 텍스트 전용에 비해 상당한 성능 향상을 보여줍니다. 많은 대형 멀티모달 모델은 이미지 입력 ​​시 성능 향상을 보이지 않거나, 이미지 처리 시 성능 저하를 보이기도 합니다. 가능한 이유는 다음과 같습니다:

  • 텍스트와 이미지가 함께 입력되면 LMM은 텍스트에 더 주의를 기울이고 이미지의 정보를 무시할 수 있습니다.
  • 일부 LMM은 텍스트 모델을 기반으로 시각적 기능을 교육할 때 고유한 언어 기능(예: 추론 기능) 중 일부를 잃을 수 있는데, 이는 이 프로젝트의 복잡한 시나리오에서 특히 분명합니다.
  • 이 벤치마크 질문은 복잡한 텍스트-이미지 래핑 입력 형식을 사용합니다. 일부 모델은 이 형식을 제대로 지원하지 못하여 텍스트에 포함된 이미지 위치 정보를 처리하고 이해할 수 없습니다.

과학 연구에서는 차트, 기하학적 도형, 시각적 데이터 등 매우 많은 양의 시각적 정보가 수반되는 경우가 많습니다. AI가 시각적 기능을 능숙하게 사용하여 추론을 지원할 수 있어야만 홍보에 도움이 될 수 있습니다. 과학 연구의 효율성과 혁신은 복잡한 과학 문제를 해결하는 강력한 도구가 되었습니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

왼쪽 그림: 추론 프로세스가 평가되는 모든 질문에서 모든 모델에 대한 답변의 정확성과 프로세스의 정확성 간의 상관 관계. 오른쪽: 잘못된 프로세스 단계의 위치 분포.

추론 단계의 평가 결과 분석

모델 추론 단계의 정확성에 대한 세밀한 평가를 실시한 결과 연구팀은 다음과 같은 사실을 발견했습니다.

  • 그림과 같이( b) 위의 단계 수준 평가 일반적으로 답변에만 의존하는 평가와 결과 사이에는 높은 수준의 일치가 있습니다. 모델이 정답을 생성하면 추론 프로세스의 품질이 대부분 높아집니다.
  • 추론 과정의 정확성은 대개 답만 보는 정확성보다 높습니다. 이는 매우 복잡한 문제의 경우에도 모델이 일부 중간 단계를 올바르게 수행할 수 있음을 보여줍니다. 따라서 모델은 인지 추론에서 상당한 잠재력을 가질 수 있으며, 이는 연구자에게 새로운 연구 방향을 열어줍니다. 연구팀은 또한 일부 분야에서는 답변만으로 평가할 때 성능이 좋은 일부 모델이 추론 프로세스에서 성능이 좋지 않다는 사실을 발견했습니다. 연구팀은 이러한 단계가 최종 결과에 중요하지 않더라도 모델이 답변을 생성할 때 중간 단계의 타당성을 무시하는 경우가 있기 때문이라고 추측합니다.
  • 또한 연구팀은 오류 단계의 위치 분포에 대한 통계 분석(그림 c 참조)을 수행한 결과 질문의 후반 추론 단계에서 오류가 발생하는 비율이 더 높다는 것을 발견했습니다. 이는 추론 과정이 누적될수록 모델이 오류가 발생하기 쉽고 오류가 누적된다는 것을 보여주며, 이는 모델이 장쇄 논리적 추론을 처리할 때 여전히 개선의 여지가 많다는 것을 보여줍니다.

팀은 또한 모든 연구원들이 AI 추론 작업에서 모델 추론 프로세스의 감독 및 평가에 더 많은 관심을 기울일 것을 요청합니다. 이는 AI 시스템의 신뢰성과 투명성을 향상시키고 모델의 추론 경로를 더 잘 이해하는 데 도움이 될 뿐만 아니라 복잡한 추론에서 모델의 약한 링크를 식별하여 모델 구조 및 훈련 방법 개선을 안내할 수 있습니다. 신중한 프로세스 감독을 통해 AI의 잠재력을 더 깊이 탐구하고 과학 연구 및 실제 응용 분야에서의 광범위한 사용을 촉진할 수 있습니다.

모델 오류 유형 분석

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

연구팀은 GPT-4V에서 오답이 있는 112개의 질문(각 주제에 16개의 질문, 순수 텍스트 질문 8개, 다중 모달 질문 8개)을 샘플링하고 이러한 오류의 원인을 수동으로 표시했습니다. 위 그림에서 볼 수 있듯이 추론 오류(논리적 추론 오류 및 시각적 추론 오류 포함)는 오류의 가장 큰 원인을 구성하며, 이는 우리 벤치마크가 원래 의도와 일치하는 인지 추론 능력에서 현재 모델의 단점을 효과적으로 강조한다는 것을 보여줍니다. 연구팀의.

또한 오류의 상당 부분은 지식 부족에서 비롯됩니다(올림피아드 문제는 고등학교 지식만을 기반으로 하지만). 이는 현재 모델이 도메인 지식이 부족하고 더 많이 사용할 수 없음을 보여줍니다. 이 지식은 추론을 돕는다. 오류의 또 다른 일반적인 원인은 이해 편향입니다. 이는 모델의 맥락에 대한 오해와 복잡한 언어 구조 및 다중 모드 정보를 통합하는 데 어려움이 있기 때문일 수 있습니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

수학 올림피아드 문제에서 실수를 저지른 GPT-4V의 예

데이터 누출 감지

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

감지된 유출 샘플 수와 이러한 샘플 문제에 해당하는 일반 텍스트 및 다중 모달 모델 적당량을 만드세요.

사전 학습 코퍼스의 규모가 계속 확장됨에 따라 벤치마크에서 잠재적인 데이터 유출을 감지하는 것이 중요합니다. 사전 훈련 과정의 불투명성으로 인해 종종 이 작업이 어려워집니다. 이를 위해 연구팀은 새로 제안된 'N-gram 예측 정확도'라는 인스턴스 수준 누수 탐지 지표를 채택했다. 이 측정항목은 각 인스턴스에서 여러 시작점을 균등하게 샘플링하고, 각 시작점에 대한 다음 N-그램을 예측하고, 예측된 모든 N-그램이 올바른지 확인하여 모델이 이 인스턴스에서 해당 N-그램을 만났을 수 있는지 여부를 확인합니다. 연구팀은 이 지표를 사용 가능한 모든 기본 모델에 적용했습니다.

위 그림에서 볼 수 있듯이 주류 모델은 올림픽 아레나에서 심각한 데이터 유출 문제가 없더라도 전체 벤치마크 데이터 세트에 비해 그 양은 미미합니다. 예를 들어, 누출이 가장 많은 Qwen1.5-32B 모델에서는 누출 의심 사례가 43개만 감지되었습니다. 이는 자연스럽게 질문을 제기합니다. 모델이 유출된 인스턴스 질문에 올바르게 대답할 수 있습니까?

이번 문제에 대해 연구팀은 유출된 질문에 대해서도 해당 모델이 아주 적은 질문에 정확하게 답할 수 있다는 사실에 놀랐습니다. 이러한 결과는 모두 벤치마크가 데이터 유출로 인해 거의 영향을 받지 않았으며 앞으로도 오랫동안 효율성을 유지하기가 매우 어렵다는 것을 보여줍니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

결론

올림픽아레나는 가치가 매우 높지만, 앞으로 해야 할 일이 아직 많다는 게 연구팀의 설명이다. 우선, OlympicArena 벤치마크에는 필연적으로 일부 시끄러운 데이터가 도입될 예정이며, 저자는 커뮤니티 피드백을 적극적으로 활용하여 이를 지속적으로 개선하고 개선할 것입니다. 또한 연구팀은 데이터 유출과 관련된 문제를 더욱 완화하기 위해 매년 새로운 버전의 벤치마크를 출시할 계획입니다. 또한 장기적으로 현재 벤치마크는 복잡한 문제를 해결하는 모델의 능력을 평가하는 것으로 제한됩니다.

미래에는 인공지능이 복잡한 종합 작업을 완료하는 데 도움을 주고, 미래 벤치마크 설계의 목표이자 목적이 될 AI4Science, AI4Engineering과 같은 실용적인 응용 프로그램에서 가치를 입증할 수 있기를 모두가 바라고 있습니다. 그럼에도 불구하고 올림픽 아레나는 여전히 AI를 초지능으로 발전시키는 촉매제로서 중요한 역할을 하고 있습니다.

대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결

비전: 인간과 AI가 함께 발전하는 영광스러운 순간

미래에는 AI 기술이 계속해서 성숙해지고 적용 시나리오가 계속 확장됨에 따라 OlympicArena는 단순한 경기장 그 이상이 될 것이라고 믿을 만한 이유가 있습니다. AI 역량을 평가하는 박람회는 다양한 분야에서 AI의 활용 가능성을 입증하는 장이 될 것입니다. 과학 연구, 공학 설계, 스포츠 경기 등 더 넓은 분야에서 AI는 자신만의 고유한 방식으로 인류 사회 발전에 기여할 것입니다.

마지막으로 연구팀은 주제 올림픽이 올림픽 아레나의 시작일 뿐이며 AI의 더 많은 역량을 지속적으로 탐구할 가치가 있다고 말했습니다. 예를 들어 올림픽 스포츠 경기장은 구체화된 지능의 장이 될 것입니다. 미래에.

참조 링크:
[1] 재구성된 사전 훈련, arXiv 2022, Weizhe Yuan, Pengfei Liu

위 내용은 대학 입시부터 올림픽 무대까지, 대형 모델과 인간 지능의 최후의 대결의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.