Kimi K1.5 : 풍경을 재구성하는 생성 AI 추론 모델
강화 학습 (RL)과 대형 언어 모델 (LLM)의 최근의 혁신은 Kimi K1.5의 생성에서 생성 AI 추론을 혁신하기위한 모델 인 Kimi K1.5의 제작에서 정점에 이르렀습니다. 이 기사는 Kimi K1.5의 주요 기능, 혁신 및 잠재적 영향을 탐구하여 함께 제공되는 연구에서 통찰력을 얻습니다.
목차 :
kimi k1.5?
란 무엇입니까?
Kimi K1.5 훈련
Kimi K1.5 벤치 마크
Kimi K1.5의 주요 혁신
Kimi K1.5 vs. Deepseek r1
API를 통해 Kimi K1.5 액세스
결론
-
Kimi k1.5는 무엇입니까? -
Kimi K1.5는 LLMS로 RL을 스케일링하는 데있어 상당한 도약을 나타냅니다. Monte Carlo Tree Search와 같은 복잡한 방법에 의존하는 기존 모델과 달리,자가 회귀 예측 및 RL 기술을 중심으로 한 간소화 된 접근 방식을 사용합니다. 디자인은 멀티 모달 작업을 처리 할 수 있으며 Math Vista 및 Live Code Bench와 같은 벤치 마크에서 뛰어난 성능을 보여줍니다.
- Kimi K1.5 훈련
Kimi K1.5의 교육은 RL 및 멀티 모달 통합을 통해 추론을 향상시키기 위해 설계된 다단 단계 프로세스입니다.
-
사전 조정 : - > 모델은 텍스트 (영어, 중국어, 코드, 수학, 일반 지식) 및 시각적 데이터를 포괄하는 광대 한 고품질 멀티 모달 데이터 세트에 사전에 전해져 있으며, 관련성과 다양성을 위해 엄격하게 필터링됩니다.
-
감독 된 미세 조정 (SFT) :
여기에는 두 단계가 포함됩니다. 여기에는 다양한 작업에 걸쳐 ~ 1 백만 가지 예제를 사용하는 바닐라 SFT와 복잡한 추론 경로를 훈련하기위한 긴 체인 (COT) SFT가 포함됩니다.
-
강화 학습 (RL) :
신중하게 선별 된 프롬프트 세트는 RL 교육을 주도합니다. 이 모델은 응답 정확도를 평가하는 보상 모델에 의해 안내되는 일련의 추론 단계를 통해 솔루션을 생성하는 법을 배웁니다. 온라인 미러 하강은 정책을 최적화합니다
부분 롤아웃 :
긴 상황을 효율적으로 처리하기 위해 Kimi K1.5는 부분 롤아웃을 사용하여 나중에 연속을 위해 미완성 된 부분을 저장합니다.
길이 페널티 및 샘플링 : 길이의 페널티는 간결한 답변을 장려하는 반면, 커리큘럼과 우선 순위가 좋은 샘플링 전략은 더 쉬운 작업에 초점을 맞 춥니 다.
평가 및 반복 :
벤치 마크에 대한 지속적인 평가 반복 모델 업데이트 가이드.
Kimi K1.5 시스템 개요 및 부분 롤아웃 다이어그램 :
-
Kimi K1.5 벤치 마크 Kimi K1.5는 다양한 작업에서 최첨단 성과를 보여줍니다
수학 : Aime 2024에서 Openai O1 (74.4) 및 Openai O1 미니 (63.6)를 능가하는 Aime 2024에서 완벽한 점수를 얻었습니다. Math-500에서 96.2 점수
코딩 : Codeforces에서 OpenAi O1과 일치하고 O1-MINI 및 QWQ 72B 미리보기에서 94 점을 달성했습니다.
- 시각적 추론 : QVQ 72B (71.4) 및 Openai O1-Mini (71)를 능가하는 MathVista_test에서 74.9 점
일반 지식 :
MMLU (EM)에서 87.4 점을 얻었고 Openai 4o (87.2)를 능가합니다.
-
추론 전략 다이어그램 :
-
Kimi K1.5 주요 혁신
- 긴 컨텍스트 스케일링 : 최대 128,000 개의 토큰을 처리하여 부분 롤아웃을 통한 효율성을 향상시킵니다.
사고 추론의 체인 :
적응성을위한 길고 짧은 침대 전략을 결합합니다.
강화 학습 파이프 라인 : 선별 된 프롬프트, 감독 된 미세 조정 및 정책 최적화가있는 정제 된 RL 파이프 라인.
멀티 모달 데이터 처리 :
텍스트와 시각 데이터를 효과적으로 처리합니다
Kimi K1.5 vs. Deepseek r1
Kimi K1.5 및 DeepSeek R1은 LLM 개발에 대한 다른 접근법을 나타냅니다. Kimi K1.5의 간소화 된 아키텍처, 통합 RL 및 긴 컨텍스트 처리는 DeepSeek R1의 전통적인 방법과 구별됩니다. 차이점은 복잡한 상황에 처한 작업에 대한 성능에 영향을 미칩니다
api
를 통해 Kimi K1.5 액세스
API 액세스는 Kimi의 관리 콘솔에 등록해야합니다. Python Code Snippet의 예는 API 상호 작용을 보여줍니다 :
결론
Kimi K1.5는 최첨단 결과를 달성하면서 RL 디자인을 단순화하면서 생성 AI 추론에서 상당한 발전을 나타냅니다. 컨텍스트 스케일링 및 멀티 모달 데이터 처리의 혁신은 다양한 산업에서 광범위한 영향을 미치는 주요 모델로 위치합니다.
위 내용은 Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!