13B 매개변수를 가진 모델이 실제로 상위 GPT-4를 이길 수 있을까요? 아래 그림과 같이 결과의 타당성을 확인하기 위해 이번 테스트도 OpenAI의 데이터 노이즈 제거 방식을 따랐으며 데이터 오염의 증거는 발견되지 않았습니다
그림의 모델을 관찰하면 "rephraser"라는 단어가 포함되어 있으면 모델의 성능이 상대적으로 높다는 것을 알았습니다
이것의 비결은 무엇인가요? 데이터가 오염된 것으로 밝혀졌습니다. 즉, 훈련 세트에서 테스트 세트 정보가 유출되었는데, 이러한 오염을 감지하기가 쉽지 않습니다. 이 문제의 중요성에도 불구하고 오염을 이해하고 감지하는 것은 여전히 열려 있고 어려운 과제입니다.
이 단계에서 가장 일반적으로 사용되는 오염 제거 방법은 n-gram 중첩 및 임베딩 유사성 검색입니다. N-gram 중첩은 문자열 일치를 사용하여 오염을 감지하며 GPT-4, PaLM과 같은 모델에서 일반적으로 사용됩니다. Llama-2 방법; 임베딩 유사성 검색은 사전 훈련된 모델(예: BERT)의 임베딩을 사용하여 유사하고 잠재적으로 오염된 사례를 찾습니다.
그러나 UC Berkeley와 Shanghai Jiao Tong University의 연구에 따르면 테스트 데이터의 간단한 변경(예: 재작성, 번역)으로 기존 탐지 방법을 쉽게 우회할 수 있는 것으로 나타났습니다. 그들은 "Rephrased Samples"와 같은 테스트 사례의 변형을 참조합니다.
MMLU 벤치마크 테스트에서 다시 작성해야 할 내용은 다음과 같습니다. 다시 작성한 샘플의 시연 결과입니다. 결과는 이러한 샘플이 훈련 세트에 포함되면 13B 모델이 매우 높은 성능(MMLU 85.9)을 달성할 수 있음을 보여줍니다. 불행하게도 n-gram 중첩 및 임베딩 유사성과 같은 기존 감지 방법은 이러한 오염을 감지할 수 없습니다. 예를 들어, 임베딩 유사성 방법은 동일한 주제의 다른 문제와 표현 변경 문제를 구별하는 데 어려움을 겪습니다.
유사한 표현 기술을 사용하여 이 논문은 HumanEval 및 GSM-8K와 같이 널리 사용되는 코딩 및 수학 벤치마크에서 일관된 결과를 관찰합니다. (기사 시작 부분의 그림에 표시됨). 따라서 다시 작성해야 하는 콘텐츠, 즉 다시 작성된 샘플을 감지할 수 있는 능력이 중요해집니다.
다음으로, 이번 연구가 어떻게 진행되었는지 살펴보겠습니다.
대형 모델(LLM)의 급속한 발전으로 사람들은 테스트 세트 오염 문제에 점점 더 많은 관심을 기울이고 있습니다. 많은 사람들이 공개 벤치마크의 신뢰성에 대해 우려를 표명했습니다.
이 문제를 해결하기 위해 일부 사람들은 문자열 일치(예: n-gram 중복)와 같은 전통적인 오염 제거 방법을 사용하여 벤치마크 데이터를 제거합니다. 그러나 테스트 데이터에 대한 간단한 변경(예: 재작성, 번역)만으로 이러한 정리 조치를 쉽게 우회할 수 있기 때문에 이러한 작업만으로는 충분하지 않습니다.
테스트 데이터에 대한 이러한 변경 사항이 제거되지 않으면 13B 더 중요한 것은 모델이 테스트 벤치마크를 쉽게 과적합하고 GPT-4와 비슷한 성능을 달성한다는 것입니다. 연구진은 MMLU, GSK8k 및 HumanEval
과 같은 벤치마크 테스트에서 이러한 관찰 내용을 검증하는 동시에 증가하는 위험을 해결하기 위해 본 논문에서는 더욱 강력한 LLM 기반 오염 제거 방법인 LLM 오염 제거 장치를 제안하고 이를 적용합니다. 널리 사용되는 사전 훈련 및 미세 조정 데이터 세트에 대한 결과는 본 논문에서 제안한 LLM 방법이 재작성된 샘플을 제거하는 데 기존 방법보다 훨씬 우수하다는 것을 보여줍니다.
이 접근 방식은 이전에 알려지지 않았던 일부 테스트 중복도 드러냈습니다. 예를 들어 RedPajamaData-1T 및 StarCoder-Data와 같은 사전 훈련 세트에서는 HumanEval 벤치마크와 8~18%가 중복되는 것을 발견했습니다. 또한 이 논문은 GPT-3.5/4에서 생성된 합성 데이터 세트에서도 이러한 오염을 발견했는데, 이는 AI 분야에서 우발적 오염의 잠재적 위험도 보여줍니다.
이 글을 통해 커뮤니티가 공개 벤치마크를 사용할 때 더욱 강력한 정제 방법을 채택하고 새로운 일회성 테스트 사례를 적극적으로 개발하여 모델을 정확하게 평가할 수 있기를 바랍니다
다시 작성해야 할 것은 다음과 같습니다. : 샘플 다시 작성
이 기사의 목표는 훈련 세트에 테스트 세트를 포함시키는 간단한 변경이 최종 벤치마크 성능에 영향을 미치는지 조사하는 것입니다. 재작성이란: 샘플을 재작성하는 것입니다." 수학, 지식, 코딩 등 다양한 벤치마크 영역이 실험에서 고려되었습니다. 예제 1은 다시 작성해야 하는 GSM-8k의 콘텐츠입니다. 즉, 10그램 중복을 감지할 수 없는 다시 작성된 샘플이며 수정된 텍스트는 원본 텍스트와 동일한 의미를 유지합니다.
기본 오염의 형태에 따라 재작성 기술에는 약간의 차이가 있습니다. 텍스트 기반 벤치마크 테스트에서 본 논문에서는 의미를 변경하지 않는다는 목적을 달성하기 위해 단어 순서를 재배치하거나 동의어 대체를 사용하여 테스트 사례를 다시 작성합니다. 코드 기반 벤치마크 테스트에서는 코딩 스타일, 네이밍 방법 등을 변경하여 본 글을 다시 작성하였다. 아래와 같이 주어진 테스트 세트에 대해 알고리즘 1에서 간단한 알고리즘을 제안한다. 이 방법은 테스트 샘플이 탐지를 회피하는 데 도움이 될 수 있습니다.
다음으로, 본 논문에서는 기준선을 기준으로 데이터 세트에서 다시 작성해야 하는 내용을 정확하게 제거할 수 있는 새로운 오염 감지 방법인 다시 작성된 샘플을 제안합니다.
구체적으로 이번 글에서는 LLM 제염기를 소개합니다. 먼저, 각 테스트 사례에 대해 임베딩 유사성 검색을 사용하여 유사성이 가장 높은 상위 k 훈련 항목을 식별한 후 각 쌍이 동일한지 LLM(예: GPT-4)에 의해 평가됩니다. 이 접근 방식은 다시 작성해야 하는 데이터 세트의 양(다시 쓰기 샘플)을 결정하는 데 도움이 됩니다.
다양한 오염과 다양한 감지 방법에 대한 벤 다이어그램은 그림 4에 나와 있습니다.
Experiment
다음으로 몇 가지 주요 결과를 살펴보겠습니다
다시 작성해야 할 내용은 다음과 같습니다. 오염 표준 샘플을 다시 작성합니다
표 2에서와 같이 다시 작성해야 할 내용은 샘플에 대해 훈련된 Llama-2 7B 및 13B를 다시 작성하면 MMLU에서 45.3에서 88.5까지 상당히 높은 점수를 얻습니다. 이는 다시 작성된 샘플이 기준 데이터를 심각하게 왜곡할 수 있으므로 오염으로 간주되어야 함을 의미합니다.
이 기사는 또한 HumanEval 테스트 세트를 다시 작성하여 C, JavaScript, Rust, Go 및 Java의 5가지 프로그래밍 언어로 번역합니다. 결과는 재작성된 샘플에 대해 훈련된 CodeLlama 7B 및 13B가 HumanEval에서 각각 32.9~67.7 및 36.0~81.1 범위의 매우 높은 점수를 얻을 수 있음을 보여줍니다. 이에 비해 GPT-4는 HumanEval에서 67.0만 달성할 수 있습니다.
아래 표 4는 동일한 효과를 얻습니다.
오염 탐지 방법 평가
표 5에서 볼 수 있듯이 LLM 오염 제거기를 제외한 다른 모든 탐지 방법에는 일부 오탐지가 발생합니다. 재작성되거나 번역된 샘플은 n-그램 중복으로 감지되지 않습니다. 다중 qa BERT를 사용하면 유사성 검색 내장이 번역된 샘플에서 전혀 효과적이지 않은 것으로 나타났습니다.状 데이터 세트의 오염 상태
표 7에서 각 학습 데이터 세트의 데이터 오염에 대한 데이터 오염 비율이 공개됩니다. 79 다시 작성해야 하는 유일한 내용은 다시 작성된 샘플의 인스턴스, MATH 테스트 세트의 1.58%를 차지합니다. 예제 5는 MATH 훈련 데이터에 대한 MATH 테스트를 적용한 것입니다.
자세한 내용은 원본을 확인해주세요
위 내용은 GPT-4와의 전면전에서 13B 모델이 유리할까요? 그 뒤에 특이한 상황이 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!