検索
ホームページテクノロジー周辺機器AIChitrarth-1:Krutrim AI Labsによる多言語VLM

インドのAIの風景は急速に進化しており、大幅な進歩と革新が出現しています。 OLAグループ会社であるKrutrim AI Labsは、この成長の重要なプレーヤーであり、最近、画期的なビジョン言語モデル(VLM)であるChitrarth-1を発表しました。 インドの多様な言語的および文化的文脈のために設計されたChitrarth-1は、インドの10の主要な言語と英語をサポートしており、多言語AIソリューションの重要なニーズに対応しています。この記事では、チトラルス-1とインドの拡大するAI機能への影響を掘り下げています。

目次

    chitrarth-1とは?
  • chitrarth-1アーキテクチャと仕様
  • トレーニングデータと方法論
    • フェーズ1:アダプター事前トレーニング
    • フェーズ2:命令チューニング
  • パフォーマンスとベンチマーク
  • chitrarth-1
  • へのアクセス アクション中のChitrarth-1
  • 結論
chitrarth-1とは?

Chitrarth-1(「Chitra」 - 画像と「Artha」 - 意味を組み合わせて)は、高度な言語とビジョン処理を統合する75億パラメーターVLMです。 インドの多様な言語的ニーズに応えるために建てられ、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オディア、アッサム語、英語をサポートしています。 このモデルは、「私たちの国、私たちの国、そして私たちの市民のためにAIを発展させることへのクルトリムのコミットメントを具体化しています。 リッチで多言語のデータセットを使用すると、バイアスが最小限に抑えられ、インド言語と英語で堅牢なパフォーマンスが保証され、公平なAIアクセスが促進されます。 Chitrarth-1に関する研究は、ニューリップや機械翻訳に関する第9回会議を含む大手アカデミックジャーナルに掲載されています。

chitrarth-1アーキテクチャと仕様

Chitrarth-1は、Siglip(Siglip-So400M-Patch14-384)モデルに基づいてビジョンエンコーダーによって強化された、その基礎としてKrutrim-7B LLMを利用します。 主要なアーキテクチャコンポーネントには次のものが含まれます 画像機能抽出のための事前に訓練されたSiglip Visionエンコーダー。

LLMのトークンスペースに画像機能を投影するためのトレーニング可能な線形マッピングレイヤー。

マルチモーダルパフォーマンスを改善するための命令に従う画像テキストデータセットを使用した微調整。
  • トレーニングデータと方法論
  • Chitrarth-1のトレーニングには、広大な多言語データセットを使用して2つのフェーズが含まれていました。

フェーズ1:アダプター事前トレーニング

    オープンソースモデルを使用して複数のインド言語に翻訳された多様なデータセットで事前に訓練されています。
  • 英語とインド語のバランスの取れた表現を維持して、公平なパフォーマンスを確保しました。
  • 単一の言語に対するバイアスを避けるように設計され、効率と堅牢性のために最適化。
  • フェーズ2:命令チューニング

複雑な命令データセットで微調整して、マルチモーダル推論機能を強化します。 英語ベースの命令調整データセットとその多言語翻訳を使用しました

多様なインドの画像(性格、記念碑、アートワーク、料理)を特徴とするビジョン言語データセットが含まれています。
    バランスの取れたドメイン表現のための高品質の独自の英語テキストデータを組み込んだ。
  • パフォーマンスとベンチマーク
Chitrarth-1は、IDEFICS 2(7B)やPalo 7Bなどの主要なVLMに対して厳密にテストされており、TextVQAやVizWizなどのタスクで競争力を維持しながら、さまざまなベンチマークで一貫してそれらを上回ります。また、主要なメトリックでLlama 3.2 11bビジョン指示を上回ります。 Krutrimは、3つのタスクにわたる10のリソース不足のインド言語の新しい評価スイートであるBharatbenchを導入し、将来の研究のためのベースラインを確立し、これらの言語を効果的に処理するChitrarth-1の能力を強調しました。 サンプルのbharatbenchの結果を以下に示します:

詳細については、ここをクリックしてください。

chitrarth-1

へのアクセス

Chitrarth-1は介してアクセス可能です

  • 顔の抱き合った顔:直接使用または微調整。 (ここをクリックしてアクセスしてください)
  • github:(元の記事で提供されているコード)
  • krutrimクラウド:(探索するにはここをクリックしてください)

Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

chitrarth-1 in Action Chitrarth-1の機能の例には、画像分析、画像キャプションの生成、UI/UX画面分析(元の記事で提供されている画像)が含まれます。

Chitrarth-1: A Multilingual VLM by Krutrim AI LabsChitrarth-1: A Multilingual VLM by Krutrim AI Labs結論Chitrarth-1: A Multilingual VLM by Krutrim AI Labs

OLAグループの一部門であるKrutrim AI Labsは、AIコンピューティングの将来の構築に取り組んでいます。 Chitrarth-1、およびGPUのようなサービス、AIスタジオなどの他の製品は、包括的で文化的に敏感なAIの新しい基準を確立し、より公平な技術環境を促進しています。

以上がChitrarth-1:Krutrim AI Labsによる多言語VLMの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
nvidia nemotron-mini-4b-instructを使用する方法は?nvidia nemotron-mini-4b-instructを使用する方法は?Apr 11, 2025 am 11:02 AM

NvidiaのNemotron-Mini-4B-Instruct:オンデバイスAIの強力な小言語モデル Nvidiaは最近、速度とデバイス展開のために最適化されたコンパクトでありながら有能な小言語モデル(SLM)であるNemotron-Mini-4B-Instructを発表しました。 から派生した

LLMベースのアプリケーションにおけるエージェントAI設計パターンの進化LLMベースのアプリケーションにおけるエージェントAI設計パターンの進化Apr 11, 2025 am 10:58 AM

AIエージェント:ヒューマンコンピューターの相互作用の未来 「AIエージェントは、将来コンピューターと対話する主要な方法になります。彼らは私たちのニーズと好みを理解し、タスクと意思決定makiで積極的に私たちを助けます

Genaiを使用して受動的収入を得る4つの方法Genaiを使用して受動的収入を得る4つの方法Apr 11, 2025 am 10:57 AM

導入 生成AI(Genai)の分野は、さまざまな組織や個人による採用に沿った雇用機会に満ちています。私もあなたがgenaiを使ってたくさんのお金を稼ぐことができると言ったらどうでしょう、私は

10 2025年にフォローする10生成AI Redditスレッド - 分析Vidhya10 2025年にフォローする10生成AI Redditスレッド - 分析VidhyaApr 11, 2025 am 10:54 AM

生成AI:誇大宣伝と現実に深く潜ること 生成AIの急速な進歩は、激しい議論を引き起こしました。公開された議論で知られるRedditは、この変革的な技術に関する豊かな意見の風景を提供します。この芸術

効率的な人間の姿勢推定効率的な人間の姿勢推定Apr 11, 2025 am 10:50 AM

導入 コンピュータービジョンの領域内では、人間の姿勢の推定は、現実やゲームの増加から機械的自律性とヘルスケアに拡張されるアプリケーションを備えた魅力的な分野として存在します。この記事は脱落します

コンテンツの節度とキュレーションのためのソーシャルメディアのAIエージェントコンテンツの節度とキュレーションのためのソーシャルメディアのAIエージェントApr 11, 2025 am 10:44 AM

AIエージェント:ソーシャルメディアコンテンツのモデレーションとキュレーションの革新 ソーシャルメディアプラットフォームでのユーザー生成コンテンツの爆発には、洗練されたコンテンツの節度とキュレーションが必要です。 人間のモデレーターだけでは、純粋なボルを処理できません

NASAが使用する6つのプログラミング言語NASAが使用する6つのプログラミング言語Apr 11, 2025 am 10:41 AM

NASAの宇宙ミッションに動力を与えるプログラミング言語の探索 太陽系を横切って宇宙船を導く複雑なコードを想像してください。 NASAでは、これらの成果を推進するソフトウェアは普通ではありません。その

Llamacoderを使用した5つの簡単なアプリを構築しますLlamacoderを使用した5つの簡単なアプリを構築しますApr 11, 2025 am 10:35 AM

生成AIは、コーディングユーザーと非技術ユーザーの間のギャップを埋めています。 AIのLlamaCoderなどのツールは、ユーザーが単純なプロンプトでアプリケーションを構築できるようにし、広範なコーディング知識の必要性を最小限に抑えます。この記事では、建物を示しています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)