코드 라마(Code Llama)의 코딩 능력이 폭등했고, 미세 조정된 휴먼에발(HumanEval) 버전이 GPT-4보다 좋은 점수를 받아 하루 만에 출시됐다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

코드 라마(Code Llama)의 코딩 능력이 폭등했고, 미세 조정된 휴먼에발(HumanEval) 버전이 GPT-4보다 좋은 점수를 받아 하루 만에 출시됐다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 26, 2023 pm 09:01 PM

이론미세 조정code llama

어제 메타는 연구 및 상업적 목적으로 무료로 사용할 수 있는 코드 생성 전문 기본 모델인 Code Llama을 오픈소스화했습니다.

Code Llama 시리즈 모델에는 세 가지 매개변수 버전이 있으며 매개변수 양은 각각 7B, 13B, 34B입니다. 또한 Python, C++, Java, PHP, Typescript(Javascript), C# 및 Bash를 포함한 여러 프로그래밍 언어를 지원합니다.

Meta는 다음을 포함한 Code Llama 버전을 제공합니다.

Code Llama, 기본 코드 모델
Code Sheep-Python, Python의 미세 조정 버전; 미세 조정된 자연어 교육 버전
효율성 측면에서 HumanEval 및 MBPP 데이터 세트의 다양한 버전의 Code Llama에 대한 일회성 통과율(pass@1)이 GPT-3.5를 초과합니다.

또한 HumanEval 데이터세트의 Code Llama의 "Unnatural" 34B 버전 pass@1은 GPT-4에 가깝습니다(62.2% 대 67.0%). 그러나 Meta는 이 버전을 출시하지 않았지만 소규모 고품질 인코딩 데이터 세트에 대한 교육을 통해 상당한 성능 개선을 달성했습니다.

이미지 출처: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布 하루가 지나고 한 연구원이 GPT-4에 보고했습니다. 챌린지가 시작되었습니다. 개발자를 위한 AI 검색 엔진 구축을 목표로 하는 조직인 Phind에서 나온 것이며, 연구에서는 세밀하게 조정된 Code Llama-34B를 사용하여 HumanEval 평가에서 GPT-4를 이겼습니다.

Phind 공동 창립자 Michael Royzen은 다음과 같이 말했습니다. "이것은 메타 논문에서 "부자연스러운 코드 라마" 결과를 재현(및 능가)하는 것을 목표로 하는 초기 실험일 뿐입니다. 앞으로는 실제 워크플로에서 경쟁력을 가질 수 있는 다양한 CodeLlama 모델로 구성된 전문 포트폴리오를 갖게 될 것입니다. ”

두 모델 모두 오픈 소스였습니다.

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

연구원들이 Huggingface에 이 두 모델을 공개했습니다. 가서 확인해 보세요.

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

Phind-CodeLlama-34B-v1: https://huggingface.co/Phind/Phind-CodeLlama-34B-v1

Phind-CodeLlama-34B-Python-v1: https://huggingface.co /Phind/Phind-CodeLlama-34B-Python-v1
다음으로 이 연구가 어떻게 구현되었는지 살펴보겠습니다.

GPT-4를 이길 수 있도록 미세 조정된 코드 Llama-34B

먼저 결과를 살펴보겠습니다. 이 연구에서는 Phind 내부 데이터 세트를 사용하여 Code Llama-34B 및 Code Llama-34B-Python을 미세 조정하여 각각 Phind-CodeLlama-34B-v1 및 Phind-CodeLlama-34B-Python-v1 두 가지 모델을 만들었습니다.

새롭게 획득한 두 모델은 HumanEval에서 각각 67.6%와 69.5% pass@1을 달성했습니다.

비교를 위해 CodeLlama-34B pass@1은 48.8%이고, CodeLlama-34B-Python pass@1은 53.7%입니다.

그리고 HumanEval에서 GPT-4의 pass@1은 67%입니다(올해 3월에 발표된 "GPT-4 기술 보고서"에서 OpenAI가 발표한 데이터).

이미지 출처: https://ai.meta.com/blog/code-llama-large-언어-model-coding/

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

이미지 출처: https://cdn. openai.com/papers/gpt-4.pdf

미세 조정에 대해 말하자면, 물론 데이터 세트는 필수입니다. 이번 연구에서는 약 80,000개의 고품질 프로그래밍 문제와 솔루션이 포함된 독점 데이터 세트에서 Code Llama-34B 및 Code Llama-34B-Python을 미세 조정했습니다.

이 데이터 세트는 코드 완성 예시가 아닌 명령-답변 쌍을 취하며 이는 HumanEval 데이터 구조와 다릅니다. 그런 다음 연구에서는 총 약 160,000개의 사례를 사용하여 두 시대에 대해 Phind 모델을 훈련했습니다. 연구진은 이번 훈련에는 LoRA 기술을 사용하지 않고 국지적 미세 조정(Fine-Tuning)을 활용했다고 밝혔다.

또한 연구에서는 DeepSpeed ZeRO 3 및 Flash Attention 2 기술을 사용하여 32개의 A100-80GB GPU에서 4096개의 토큰 시퀀스 길이로 이러한 모델을 훈련했습니다.

또한 연구에서는 모델 결과를 더욱 효과적으로 만들기 위해 OpenAI의 오염 제거 방법을 데이터 세트에 적용했습니다.

매우 강력한 GPT-4조차도 데이터 오염의 딜레마에 직면할 것이라는 것은 잘 알려져 있습니다. 일반인의 관점에서 보면 훈련된 모델은 평가 데이터에 대해 훈련을 받았을 수도 있습니다.

이 문제는 LLM에서는 매우 어렵습니다. 예를 들어 모델의 성능을 평가하는 과정에서 과학적으로 신뢰할 수 있는 평가를 하기 위해서는 연구자가 평가에 사용된 문제가 훈련에 있는지 확인해야 합니다. 모델의 데이터. 그렇다면 모델은 이러한 문제를 기억할 수 있으며 모델을 평가할 때 이러한 특정 문제에 대해 분명히 더 나은 성능을 발휘할 것입니다.

사람이 시험을 보기 전에 시험 문제를 아는 것과 같습니다.

이 문제를 해결하기 위해 OpenAI는 공개 GPT-4 기술 문서 "GPT-4 기술 보고서"에서 GPT-4가 데이터 오염을 평가하는 방법을 공개했습니다. 그들은 이러한 데이터 오염을 정량화하고 평가하기 위한 전략을 공개합니다.

구체적으로 OpenAI는 부분 문자열 매칭을 사용하여 평가 데이터 세트와 사전 훈련 데이터 간의 교차 오염을 측정합니다. 평가 및 훈련 데이터 모두 공백과 기호를 모두 제거하고 문자(숫자 포함)만 남기는 방식으로 처리됩니다.

각 평가 예시에 대해 OpenAI는 50자 하위 문자열 3개를 무작위로 선택합니다(50자 미만인 경우 전체 예시가 사용됩니다). 세 개의 샘플링된 평가 하위 문자열 중 하나라도 처리된 훈련 예제의 하위 문자열이면 일치가 결정됩니다.

이렇게 하면 OpenAI가 삭제하고 다시 실행하여 오염되지 않은 점수를 얻는 오염된 예제 목록이 생성됩니다. 그러나 이 필터링 방법에는 몇 가지 제한 사항이 있습니다. 부분 문자열 일치는 거짓 부정(평가 데이터와 훈련 데이터 사이에 작은 차이가 있는 경우) 및 거짓 긍정으로 이어질 수 있습니다. 결과적으로 OpenAI는 평가 예시의 정보 중 일부만 사용하고 질문, 맥락 또는 이에 상응하는 데이터만 활용하고 답변, 답변 또는 이에 상응하는 데이터는 무시합니다. 경우에 따라 객관식 옵션도 제외됩니다. 이러한 제외로 인해 오탐지가 증가할 수 있습니다.

이 부분에 대해 관심 있는 독자들은 논문을 참조하여 자세히 알아볼 수 있습니다.

논문 주소: https://cdn.openai.com/papers/gpt-4.pdf

그러나 Phind가 GPT-4를 벤치마킹할 때 사용한 HumanEval 점수에 대해 논란이 있습니다. 어떤 사람들은 최근 GPT-4 시험 점수가 85%에 이르렀다고 합니다. 하지만 핀드는 이 점수를 도출한 관련 연구는 오염 연구를 수행하지 않았으며, GPT-4가 새로운 테스트를 받았을 때 HumanEval의 테스트 데이터를 봤는지 여부를 판단하는 것은 불가능하다고 대답했습니다. "GPT-4 goes dumb"에 대한 최근 연구를 고려하면 원본 기술 보고서의 데이터를 사용하는 것이 더 안전합니다.

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

그러나 대형 모델 평가의 복잡성을 고려할 때 이러한 평가 결과가 모델의 진정한 성능을 반영할 수 있는지 여부는 여전히 논란의 여지가 있는 문제입니다. 모델을 다운받아 직접 체험해 보실 수 있습니다.

다시 작성한 내용은 다음과 같습니다. 참조 링크:

다시 작성해야 하는 내용은 다음과 같습니다: https://benjaminmarie.com/the-decontaminating-evaluation-of-gpt-4/

다시 작성해야 하는 콘텐츠는 다음과 같습니다. 콘텐츠는 다음과 같습니다: https://www.phind.com/blog/code-llama-beats-gpt4

위 내용은 코드 라마(Code Llama)의 코딩 능력이 폭등했고, 미세 조정된 휴먼에발(HumanEval) 버전이 GPT-4보다 좋은 점수를 받아 하루 만에 출시됐다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구Apr 30, 2025 am 11:17 AM

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

식료품 통로에 AI를 호출합니다Apr 30, 2025 am 11:16 AM

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것Apr 30, 2025 am 11:15 AM

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유Apr 30, 2025 am 11:14 AM

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Apr 30, 2025 am 11:13 AM

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다Apr 30, 2025 am 11:12 AM

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다Apr 30, 2025 am 11:11 AM

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년Apr 30, 2025 am 11:10 AM

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.