印度的AI景觀正在迅速發展,並有重大的進步和創新。 OLA集團公司Krutrim AI Labs是這一增長的關鍵參與者,最近揭示了Chitrarth-1,這是一種開創性的視覺語言模型(VLM)。 Chitrarth-1專為印度多樣化的語言和文化背景而設計,支持十種主要的印度語言以及英語,這是針對多語言AI解決方案的關鍵需求。本文深入研究了Chitrarth-1及其對印度不斷擴展的AI功能的影響。 目錄的
表什麼是chitrarth-1?
> chitrarth-1(結合“ chitra” - 圖像和“ artha” - 含義)是一個7.5億個參數VLM,集成了先進的語言和視覺處理。 它為滿足印度多種語言需求而建造的支持印地語,孟加拉語,泰盧固語,泰米爾語,馬拉地語,古吉拉特語,卡納達語,馬拉雅拉姆語,奧迪亞,阿薩姆語和英語。 該模型體現了克魯特里姆(Krutrim)對“為我們的國家,國家和我們的公民開發AI的承諾”。 它使用豐富的多語言數據集可以最大程度地減少偏見,並確保跨指示語言和英語的穩健性能,從而促進公平的AI訪問。 Chitrarth-1的研究發表在領先的學術期刊上,包括Neurips和第九次機器翻譯會議。
>
> chitrarth-1利用krutrim-7b llm作為基礎,通過基於siglip(siglip-so400m-patch14-384)模型的視覺編碼器增強。 關鍵建築組件包括:
>用於圖像特徵提取的預訓練的siglip視覺編碼器。>可訓練的線性映射層,以將項目圖像特徵到LLM的令牌空間中。
階段1:適配器預訓練
階段2:指令調整
在復雜的指令數據集上進行了微調,以增強多模式推理功能。Chitrarth-1對IdeFics 2(7b)和Palo 7b等領先的VLM進行了嚴格的測試,在各種基准上表現不佳,同時在諸如TextVQA和Vizwiz等任務上保持競爭力。它還超過了關鍵指標中的Llama 3.2 11B視覺指導。 克魯特里姆(Krutrim)推出了Bharatbench,這是一個新的評估套件,用於在三個任務中使用十種資源不足的指示語言,為將來的研究建立了基線,並突出了Chitrarth-1有效地處理這些語言的能力。 樣本Bharatbench結果如下所示:
有關更多詳細信息,請單擊此處。
>訪問Chitrarth-1
> Chitrarth-1可以通過以下方式訪問:
> Chitrarth-1在Action
結論
OLA集團的一個部門> krutrim AI實驗室致力於建立AI計算的未來。 以Chitrarth-1以及其他產品(例如GPU)作為服務,AI工作室等等,他們正在建立一個新的包容性,具有文化敏感的AI的標準,從而促進了更公平的技術景觀。
以上是Chitrarth-1:Krutrim AI實驗室的多語言VLM的詳細內容。更多資訊請關注PHP中文網其他相關文章!