Chitrarth-1：Krutrim AI實驗室的多語言VLM-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Chitrarth-1：Krutrim AI實驗室的多語言VLM

Joseph Gordon-Levitt

Mar 03, 2025 pm 06:22 PM

印度的AI景觀正在迅速發展，並有重大的進步和創新。 OLA集團公司Krutrim AI Labs是這一增長的關鍵參與者，最近揭示了Chitrarth-1，這是一種開創性的視覺語言模型（VLM）。 Chitrarth-1專為印度多樣化的語言和文化背景而設計，支持十種主要的印度語言以及英語，這是針對多語言AI解決方案的關鍵需求。本文深入研究了Chitrarth-1及其對印度不斷擴展的AI功能的影響。目錄的

表

什麼是chitrarth-1？

> chitrarth-1體系結構和規格
培訓數據和方法
階段1：適配器預訓練
- >階段2：指令調整
>性能和基準
>訪問Chitrarth-1
> Chitrarth-1在Action 中
什麼是chitrarth-1？

> chitrarth-1（結合“ chitra” - 圖像和“ artha” - 含義）是一個7.5億個參數VLM，集成了先進的語言和視覺處理。它為滿足印度多種語言需求而建造的支持印地語，孟加拉語，泰盧固語，泰米爾語，馬拉地語，古吉拉特語，卡納達語，馬拉雅拉姆語，奧迪亞，阿薩姆語和英語。該模型體現了克魯特里姆（Krutrim）對“為我們的國家，國家和我們的公民開發AI的承諾”。它使用豐富的多語言數據集可以最大程度地減少偏見，並確保跨指示語言和英語的穩健性能，從而促進公平的AI訪問。 Chitrarth-1的研究發表在領先的學術期刊上，包括Neurips和第九次機器翻譯會議。

> chitrarth-1體系結構和規格

> chitrarth-1利用krutrim-7b llm作為基礎，通過基於siglip（siglip-so400m-patch14-384）模型的視覺編碼器增強。關鍵建築組件包括：

>用於圖像特徵提取的預訓練的siglip視覺編碼器。

>可訓練的線性映射層，以將項目圖像特徵到LLM的令牌空間中。 >

>使用指令遵循圖像-TEXT數據集進行微調，以提高多模式性能。

培訓數據和方法

階段1：適配器預訓練

在使用開源模型轉換為多種指示語言的不同數據集上進行了預先訓練。
維持英語和指示語言的平衡表示，以確保公平的表現。
>

階段2：指令調整

在復雜的指令數據集上進行了微調，以增強多模式推理功能。

>利用了基於英語的指令調查數據集及其多語言翻譯。
包括一個視覺語言數據集，其中包含不同的印度圖像（個性，紀念碑，藝術品，美食）。
合併平衡域表示的高質量專有英語文本數據。
性能和基準測試

Chitrarth-1對IdeFics 2（7b）和Palo 7b等領先的VLM進行了嚴格的測試，在各種基准上表現不佳，同時在諸如TextVQA和Vizwiz等任務上保持競爭力。它還超過了關鍵指標中的Llama 3.2 11B視覺指導。克魯特里姆（Krutrim）推出了Bharatbench，這是一個新的評估套件，用於在三個任務中使用十種資源不足的指示語言，為將來的研究建立了基線，並突出了Chitrarth-1有效地處理這些語言的能力。樣本Bharatbench結果如下所示：

Chitrarth-1: A Multilingual VLM by Krutrim AI Labs