>기술 주변기기 >일체 포함 >Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다

Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다

Christopher Nolan
Christopher Nolan원래의
2025-03-07 11:34:09238검색
Kimi K1.5 : 풍경을 재구성하는 생성 AI 추론 모델

강화 학습 (RL)과 대형 언어 모델 (LLM)의 최근의 혁신은 Kimi K1.5의 생성에서 생성 AI 추론을 혁신하기위한 모델 인 Kimi K1.5의 제작에서 정점에 이르렀습니다. 이 기사는 Kimi K1.5의 주요 기능, 혁신 및 잠재적 영향을 탐구하여 함께 제공되는 연구에서 통찰력을 얻습니다. 목차 :

kimi k1.5?

란 무엇입니까? Kimi K1.5 훈련

Kimi K1.5 벤치 마크 Kimi K1.5의 주요 혁신 Kimi K1.5 vs. Deepseek r1

API를 통해 Kimi K1.5 액세스
    결론
  • Kimi k1.5는 무엇입니까?
  • Kimi K1.5는 LLMS로 RL을 스케일링하는 데있어 상당한 도약을 나타냅니다. Monte Carlo Tree Search와 같은 복잡한 방법에 의존하는 기존 모델과 달리,자가 회귀 예측 및 RL 기술을 중심으로 한 간소화 된 접근 방식을 사용합니다. 디자인은 멀티 모달 작업을 처리 할 수 ​​있으며 Math Vista 및 Live Code Bench와 같은 벤치 마크에서 뛰어난 성능을 보여줍니다.
  • Kimi K1.5 훈련
  • Kimi K1.5의 교육은 RL 및 멀티 모달 통합을 통해 추론을 향상시키기 위해 설계된 다단 단계 프로세스입니다.
  • 사전 조정 :
  • > 모델은 텍스트 (영어, 중국어, 코드, 수학, 일반 지식) 및 시각적 데이터를 포괄하는 광대 한 고품질 멀티 모달 데이터 세트에 사전에 전해져 있으며, 관련성과 다양성을 위해 엄격하게 필터링됩니다.
  • 감독 된 미세 조정 (SFT) :
  • 여기에는 두 단계가 포함됩니다. 여기에는 다양한 작업에 걸쳐 ~ 1 백만 가지 예제를 사용하는 바닐라 SFT와 복잡한 추론 경로를 훈련하기위한 긴 체인 (COT) SFT가 포함됩니다.
  • 강화 학습 (RL) :
신중하게 선별 된 프롬프트 세트는 RL 교육을 주도합니다. 이 모델은 응답 정확도를 평가하는 보상 모델에 의해 안내되는 일련의 추론 단계를 통해 솔루션을 생성하는 법을 배웁니다. 온라인 미러 하강은 정책을 최적화합니다

부분 롤아웃 :

긴 상황을 효율적으로 처리하기 위해 Kimi K1.5는 부분 롤아웃을 사용하여 나중에 연속을 위해 미완성 된 부분을 저장합니다.

길이 페널티 및 샘플링 : 길이의 페널티는 간결한 답변을 장려하는 반면, 커리큘럼과 우선 순위가 좋은 샘플링 전략은 더 쉬운 작업에 초점을 맞 춥니 다. 평가 및 반복 :

벤치 마크에 대한 지속적인 평가 반복 모델 업데이트 가이드.

Kimi K1.5 시스템 개요 및 부분 롤아웃 다이어그램 :
  1. Kimi K1.5 벤치 마크 Kimi K1.5는 다양한 작업에서 최첨단 성과를 보여줍니다

    수학 : Aime 2024에서 Openai O1 (74.4) 및 Openai O1 미니 (63.6)를 능가하는 Aime 2024에서 완벽한 점수를 얻었습니다. Math-500에서 96.2 점수
      코딩 : Codeforces에서 OpenAi O1과 일치하고 O1-MINI 및 QWQ 72B 미리보기에서 94 점을 달성했습니다.
    • 시각적 추론 : QVQ 72B (71.4) 및 Openai O1-Mini (71)를 능가하는 MathVista_test에서 74.9 점 일반 지식 :
    • MMLU (EM)에서 87.4 점을 얻었고 Openai 4o (87.2)를 능가합니다.
    • 추론 전략 다이어그램 :
    • Kimi K1.5 주요 혁신
    • 긴 컨텍스트 스케일링 : 최대 128,000 개의 토큰을 처리하여 부분 롤아웃을 통한 효율성을 향상시킵니다. 사고 추론의 체인 :
    • 적응성을위한 길고 짧은 침대 전략을 결합합니다. 강화 학습 파이프 라인 : 선별 된 프롬프트, 감독 된 미세 조정 및 정책 최적화가있는 정제 된 RL 파이프 라인. 멀티 모달 데이터 처리 :
    텍스트와 시각 데이터를 효과적으로 처리합니다

    Kimi K1.5 vs. Deepseek r1

    Kimi K1.5 및 DeepSeek R1은 LLM 개발에 대한 다른 접근법을 나타냅니다. Kimi K1.5의 간소화 된 아키텍처, 통합 RL 및 긴 컨텍스트 처리는 DeepSeek R1의 전통적인 방법과 구별됩니다. 차이점은 복잡한 상황에 처한 작업에 대한 성능에 영향을 미칩니다

    api

    를 통해 Kimi K1.5 액세스 API 액세스는 Kimi의 관리 콘솔에 등록해야합니다. Python Code Snippet의 예는 API 상호 작용을 보여줍니다 :

    결론 Kimi K1.5는 최첨단 결과를 달성하면서 RL 디자인을 단순화하면서 생성 AI 추론에서 상당한 발전을 나타냅니다. 컨텍스트 스케일링 및 멀티 모달 데이터 처리의 혁신은 다양한 산업에서 광범위한 영향을 미치는 주요 모델로 위치합니다.

위 내용은 Deepseek 이후 Kimi K1.5는 Openai O1을 능가합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.