대형 모델이 새로운 AI 열풍을 일으키자 사람들은 '대형 모델의 강력한 능력은 무엇에서 나오는가?'라고 생각하기 시작했습니다.
현재는 점점 늘어나는 '빅데이터'가 대형 모델을 주도하고 있습니다. '빅모델+빅데이터'가 모델 구축의 표준 패러다임이 된 것 같습니다. 그러나 모델 크기와 데이터 양이 지속적으로 증가함에 따라 컴퓨팅 성능에 대한 수요도 급속도로 확대될 것입니다. 일부 연구자들은 새로운 아이디어를 탐구하려고 노력하고 있습니다. 재작성된 콘텐츠: 현재 대규모 모델은 점점 더 많은 양의 "빅 데이터"에 의해 구동되고 있습니다. '대형 모델+빅데이터'가 모델 구축의 표준 패러다임이 된 것 같습니다. 그러나 모델의 크기와 데이터의 양이 계속해서 증가함에 따라 컴퓨팅 파워에 대한 수요도 급격히 늘어날 것입니다. 일부 연구자들은 새로운 아이디어를 탐구하려고 노력하고 있습니다
Microsoft는 6월에 "Just Textbooks"라는 논문을 발표했습니다. 이 논문은 7B 레이블만 있는 데이터 세트를 사용하여 1.3B 매개변수가 포함된 데이터 세트를 훈련하는 모델입니다. 모델은 phi-1입니다. 경쟁사보다 훨씬 작은 데이터 세트와 모델 크기에도 불구하고 phi-1은 HumanEval 테스트에서 50.6%, MBPP 테스트에서 55.5%의 1차 합격률을 달성했습니다
phi-1이 그만큼 높다는 것을 증명합니다. - 품질이 좋은 "작은 데이터"는 모델에 좋은 성능을 제공할 수 있습니다. 최근 Microsoft는 고품질 "작은 데이터"의 잠재력을 추가로 연구하기 위해 "교과서가 필요한 모든 것 II: phi-1.5 기술 보고서"라는 논문을 발표했습니다.
논문 주소: https://arxiv.org/abs/2309.05463
모델 소개
Architecture
연구팀은 파이-1, 자연어 상식 추론 작업에 대한 연구에 중점을 두고 1.3B 매개변수를 갖춘 Transformer 아키텍처 언어 모델 phi-1.5가 개발되었습니다. phi-1.5의 아키텍처는 phi-1과 완전히 동일합니다. 레이어는 24개, 헤드는 32개, 각 헤드의 차원은 64이고, 회전 차원이 32이고 컨텍스트 길이가 2048인 회전 임베딩을 사용합니다
또한 연구에서는 Flash-attention을 사용하여 훈련을 가속화하고 codegen-mono의 토크나이저를 사용했습니다.
다시 작성해야 하는 콘텐츠는 다음과 같습니다. 교육 데이터
다시 작성해야 하는 콘텐츠는 다음과 같습니다. 교육 데이터는 phi-1입니다. 다시 작성해야 하는 콘텐츠는 다음과 같습니다. : 훈련 데이터(70억 개)와 새로 생성된 “교과서 품질” 데이터(약 200억 개)로 구성됩니다. 그 중 새로 생성된 '교과서 품질' 데이터는 모델이 상식 추론을 마스터할 수 있도록 설계되었으며, 연구팀은 새로운 데이터를 생성하기 위해 신중하게 20,000개 주제를 선택했습니다.
네트워크 데이터(LLM에서 일반적으로 사용됨)의 중요성을 탐구하기 위해 이 연구에서는 phi-1.5-web-only와 phi-1.5-web이라는 두 가지 모델도 구축했다는 점에 주목할 가치가 있습니다.
연구팀은 다음과 같이 말했습니다. 강력하고 포괄적인 데이터 세트를 만들려면 원시 컴퓨팅 성능뿐만 아니라 복잡한 반복, 효과적인 주제 선택 및 지식에 대한 심층적인 이해가 필요합니다. 이러한 요소가 있어야만 데이터의 품질을 높일 수 있습니다. 그리고 다양성이 보장됩니다.
실험 결과
이 연구에서는 PIQA, Hellaswag, OpenbookQA, SQUAD 및 MMLU를 포함한 여러 데이터 세트를 사용하여 언어 이해 작업을 평가했습니다. 평가 결과는 표 3과 같습니다. phi-1.5의 성능은 5배 더 큰 모델과 비슷합니다. 상식 추론 벤치마크에 대한 테스트 결과는 다음 표와 같습니다.
초등학교 수학 및 기본 코딩 작업과 같은 더 복잡한 추론 작업에서는 phi-1.5가 대부분의 LLM보다 성능이 뛰어납니다
연구팀은 phi-1.5가 고품질 "작은 데이터"의 힘을 다시 한 번 증명한다고 믿습니다. .
질문과 토론
아마도 "빅모델+빅데이터"라는 개념이 사람들의 마음 속에 너무 깊이 뿌리내려 있기 때문에, 이 연구는 머신러닝 커뮤니티의 일부 연구자로부터 의문을 제기받았으며, 일부에서는 phi-1.5가 테스트 벤치마크 데이터 세트에 대한 교육에 직접 사용되었다고 의심하기도 합니다.
네티즌 Susan Zhang은 일련의 검증을 수행하고 다음과 같이 지적했습니다. "phi-1.5는 GSM8K 데이터 세트의 원래 질문에 완전히 정확한 답변을 제공할 수 있지만 형식이 약간 수정되는 한(예: 줄 바꿈), phi -1.5는 대답하지 않습니다. "
또한 질문의 데이터를 수정하면 질문에 대답하는 과정에서 "환상"이 발생합니다. 예를 들어, 음식 주문 문제에서 "피자 가격"만 수정하면 phi-1.5 답변이 잘못됩니다.
또한 phi-1.5는 데이터 수정 시 답변이 이미 틀렸더라도 최종 답변을 "기억"하는 것 같습니다.
이에 대해 논문의 저자인 Ronan Eldan은 위에서 언급한 네티즌 테스트에서 발생한 문제에 대해 신속하게 설명하고 반박했습니다.
그러나 네티즌은 다시 한번 해명했습니다. 그의 관점: 테스트에서는 프롬프트 형식에 대한 phi-1.5의 답변이 매우 "취약하다"는 사실이 밝혀졌으며 저자의 답변에 의문을 제기했습니다.
논문의 첫 번째 저자인 Li Yuanzhi는 다음과 같이 답변했습니다. phi-1.5는 견고함에 있어서 성능 면에서는 확실히 열등하지만 "취약하다"는 정확한 용어는 아닙니다. 실제로 어떤 모델에서든 pass@k의 정확도는 phi-1.5의 정확도보다 훨씬 높을 것입니다. pass@1 (그래서 모델의 정확성은 우연입니다)
이러한 질문과 토론을 본 네티즌들은 다음과 같이 표현했습니다. “가장 쉬운 대응 방법은 합성 데이터 세트를 공개하는 것입니다. ”
이것에 대해 어떻게 생각하세요?
위 내용은 Microsoft의 초강력 소형 모델로 열띤 토론 촉발: 교과서 수준 데이터의 거대한 역할 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Microsoft Power BI 차트로 데이터 시각화의 힘을 활용 오늘날의 데이터 중심 세계에서는 복잡한 정보를 비 기술적 인 청중에게 효과적으로 전달하는 것이 중요합니다. 데이터 시각화는이 차이를 연결하여 원시 데이터를 변환합니다. i

전문가 시스템 : AI의 의사 결정 능력에 대한 깊은 다이빙 의료 진단에서 재무 계획에 이르기까지 모든 것에 대한 전문가의 조언에 접근 할 수 있다고 상상해보십시오. 그것이 인공 지능 분야의 전문가 시스템의 힘입니다. 이 시스템은 프로를 모방합니다

우선, 이것이 빠르게 일어나고 있음이 분명합니다. 다양한 회사들이 현재 AI가 작성한 코드의 비율에 대해 이야기하고 있으며 빠른 클립에서 증가하고 있습니다. 이미 주변에 많은 작업 변위가 있습니다

디지털 마케팅에서 소셜 미디어에 이르기까지 모든 창의적 부문과 함께 영화 산업은 기술 교차로에 있습니다. 인공 지능이 시각적 스토리 텔링의 모든 측면을 재구성하고 엔터테인먼트의 풍경을 바꾸기 시작함에 따라

ISRO의 무료 AI/ML 온라인 코스 : 지리 공간 기술 혁신의 관문 IIRS (Indian Institute of Remote Sensing)를 통해 Indian Space Research Organization (ISRO)은 학생과 전문가에게 환상적인 기회를 제공하고 있습니다.

로컬 검색 알고리즘 : 포괄적 인 가이드 대규모 이벤트를 계획하려면 효율적인 작업량 배포가 필요합니다. 전통적인 접근 방식이 실패하면 로컬 검색 알고리즘은 강력한 솔루션을 제공합니다. 이 기사는 언덕 등반과 Simul을 탐구합니다

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

Dreamweaver Mac版
시각적 웹 개발 도구
