지난 주 Microsoft는 GPT-4 수준이라고 할 수 있는 WizardLM-2라는 오픈 소스 모델을 공개했습니다.
의외로 게시된 지 몇 시간 만에 바로 삭제되었습니다.
일부 네티즌들은 갑자기 WizardLM의 모델 가중치와 발표 게시물이 모두 삭제되어 더 이상 Microsoft 컬렉션에 없다는 사실을 발견했습니다. 사이트 언급 외에 이 공식 Microsoft 프로젝트를 입증할 증거는 찾을 수 없습니다.
GitHub 프로젝트 홈페이지가 404가 되었습니다.
프로젝트 주소 : https://wizardlm.github.io/
HF 모델 몸무게까지 포함해서 모두 사라졌어요...
네트워크 전체 얼굴 혼란이 가득한데 왜 WizardLM이 사라졌나요?
그러나 Microsoft는 팀이 모델을 "테스트"하는 것을 잊었기 때문에 이렇게 했습니다.
나중에 Microsoft 팀이 나타나 사과하고 WizardLM이 출시된 지 몇 달이 지났기 때문에 지금은 새로운 출시 프로세스를 잘 알지 못했다고 설명했습니다.
모델 출시 과정에서 요구되는 사항 중 하나를 실수로 놓쳤습니다: 중독 테스트
지난해 6월 미세 조정을 거쳤습니다. LlaMA 기반 WizardLM 1세대가 출시되자 오픈 소스 커뮤니티에서 많은 관심을 받았습니다.
문서 주소: https://arxiv.org/pdf/2304.12244.pdf
그 후, Code Llama를 기반으로 하고 Evol-을 사용하여 미세 조정된 모델인 WizardCoder의 코드 버전이 탄생했습니다. 지시하다.
테스트 결과에 따르면 HumanEval에서 WizardCoder의 pass@1은 원래 GPT-4를 능가하는 놀라운 73.2%에 도달했습니다.
시간이 4월 15일로 진행됨에 따라 Microsoft 개발자는 공식적으로 새로운 세대의 WizardLM을 발표했는데, 이번에는 Mixtral 8x22B에서 미세 조정되었습니다.
여기에는 8x22B, 70B 및 7B의 세 가지 매개변수 버전이 포함되어 있습니다.
가장 언급할 만한 점은 MT-Bench 벤치마크 테스트에서 신형 모델이 압도적인 우위를 달성했다는 점입니다.
특히 WizardLM 8x22B 모델의 가장 큰 매개변수 버전의 성능은 GPT-4 및 Claude 3에 거의 가깝습니다.
동일한 매개변수 척도에서는 70B 버전이 1위를 차지합니다.
7B 버전은 가장 빠르며 10배 더 큰 매개변수 스케일로 선두 모델과 동등한 성능도 달성할 수 있습니다.
WizardLM 2의 탁월한 성능 뒤에 숨은 비결은 Microsoft가 개발한 혁신적인 교육 방법론인 Evol-Instruct에 있습니다.
Evol-Instruct는 대규모 언어 모델을 활용하여 초기 명령어 세트를 점점 더 복잡해지는 변형으로 반복적으로 다시 작성합니다. 이러한 진화된 명령 데이터는 기본 모델을 미세 조정하는 데 사용되어 복잡한 작업을 처리하는 능력을 크게 향상시킵니다.
다른 하나는 WizardLM 2의 개발 과정에서도 중요한 역할을 한 강화 학습 프레임워크 RLEIF입니다.
WizardLM 2 교육에서는 AAA(AI Align AI) 방법도 채택되어 여러 주요 대형 모델이 서로를 안내하고 개선할 수 있습니다.
AAA 프레임워크는 "공동 교육"과 "자율 학습"이라는 두 가지 주요 구성 요소로 구성됩니다.
이 단계를 공동으로 가르치는 WizardLM과 다양한 라이선스 오픈 소스 및 독점 고급 모델은 시뮬레이션 채팅, 품질 판단, 개선 제안 및 기술 격차 해소를 수행합니다.
모델은 서로 소통하고 피드백을 제공함으로써 동료로부터 배우고 역량을 향상시킬 수 있습니다.
자율 학습을 위해 WizardLM은 지도 학습을 위한 새로운 진화 훈련 데이터와 능동적 자율 학습을 통해 강화 학습을 위한 선호도 데이터를 생성할 수 있습니다.
이 자체 학습 메커니즘을 통해 모델은 자체 생성된 데이터와 피드백 정보를 학습하여 지속적으로 성능을 향상할 수 있습니다.
또한 생성된 합성 데이터를 사용하여 WizardLM 2 모델을 학습했습니다.
연구자들의 입장에서는 대형 모델을 위한 학습 데이터가 점점 고갈되고 있으며, AI가 세심하게 생성한 데이터와 점차 AI가 감독하는 모델만이 더 강력한 인공지능을 향한 유일한 길이 될 것이라고 믿습니다.
그래서 그들은 WizardLM-2를 개선하기 위해 완전한 AI 기반 합성 교육 시스템을 만들었습니다.
그러나 데이터베이스가 삭제되기 전에 이미 많은 사람들이 모델 가중치를 다운로드했습니다.
모델이 제거되기 전에 여러 사용자가 추가 벤치마크에서도 테스트했습니다.
다행히 테스트한 네티즌들은 7B 모델에 깊은 인상을 받았으며, 현지 보조 업무를 수행할 때 첫 번째 선택이 될 것이라고 말했습니다.
누군가 독극물로 테스트한 결과 WizardLM-8x22B는 98.33점을 얻었고 기본 Mixtral-8x22B는 89.46점, Mixtral 8x7B-Indict는 92.93점을 얻었습니다.
점수가 높을수록 좋습니다. 이는 WizardLM-8x22B가 여전히 매우 강력하다는 것을 의미합니다.
독성 테스트가 없으면 모델 발송이 절대 불가능합니다.
큰 모델이 환각에 걸리기 쉽다는 것은 누구나 알고 있습니다.
WizardLM 2가 답변에 "유해하고, 편파적이며, 부정확한" 콘텐츠를 출력하는 경우 대형 모델에는 적합하지 않습니다.
특히 이러한 오류는 전체 네트워크의 관심을 끌었으며 Microsoft 자체에 대한 비판을 불러일으킬 것이며 심지어 당국의 조사를 받을 수도 있습니다.
일부 네티즌들은 '중독 테스트'를 통해 지표를 업데이트할 수 있다고 혼란스러워했습니다. 전체 저장소와 가중치를 삭제하는 이유는 무엇입니까?
Microsoft 작성자는 최신 내부 규정에 따라 이 작업만 수행할 수 있다고 밝혔습니다.
어떤 사람들은 "로보토미"가 없는 모델을 원한다고도 했어요.
그러나 개발자는 여전히 인내심을 갖고 기다려야 하며 Microsoft 팀은 테스트가 완료된 후 다시 온라인으로 돌아갈 것이라고 약속합니다.
위 내용은 출시 후 몇 시간 만에 Microsoft는 GPT-4에 필적하는 대규모 오픈 소스 모델을 몇 초 만에 삭제했습니다! 독극물 테스트를 잊어버렸습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!