インドのAIの風景は急速に進化しており、大幅な進歩と革新が出現しています。 OLAグループ会社であるKrutrim AI Labsは、この成長の重要なプレーヤーであり、最近、画期的なビジョン言語モデル(VLM)であるChitrarth-1を発表しました。 インドの多様な言語的および文化的文脈のために設計されたChitrarth-1は、インドの10の主要な言語と英語をサポートしており、多言語AIソリューションの重要なニーズに対応しています。この記事では、チトラルス-1とインドの拡大するAI機能への影響を掘り下げています。
目次
- chitrarth-1とは?
- chitrarth-1アーキテクチャと仕様
- トレーニングデータと方法論
-
- フェーズ1:アダプター事前トレーニング
- フェーズ2:命令チューニング
パフォーマンスとベンチマーク - chitrarth-1
- へのアクセス アクション中のChitrarth-1
- 結論
Chitrarth-1(「Chitra」 - 画像と「Artha」 - 意味を組み合わせて)は、高度な言語とビジョン処理を統合する75億パラメーターVLMです。 インドの多様な言語的ニーズに応えるために建てられ、ヒンディー語、ベンガル語、テルグ語、タミル語、マラーティー語、グジャラート語、カンナダ語、マラヤーラム語、オディア、アッサム語、英語をサポートしています。 このモデルは、「私たちの国、私たちの国、そして私たちの市民のためにAIを発展させることへのクルトリムのコミットメントを具体化しています。 リッチで多言語のデータセットを使用すると、バイアスが最小限に抑えられ、インド言語と英語で堅牢なパフォーマンスが保証され、公平なAIアクセスが促進されます。 Chitrarth-1に関する研究は、ニューリップや機械翻訳に関する第9回会議を含む大手アカデミックジャーナルに掲載されています。
chitrarth-1アーキテクチャと仕様
Chitrarth-1は、Siglip(Siglip-So400M-Patch14-384)モデルに基づいてビジョンエンコーダーによって強化された、その基礎としてKrutrim-7B LLMを利用します。 主要なアーキテクチャコンポーネントには次のものが含まれます 画像機能抽出のための事前に訓練されたSiglip Visionエンコーダー。
LLMのトークンスペースに画像機能を投影するためのトレーニング可能な線形マッピングレイヤー。
マルチモーダルパフォーマンスを改善するための命令に従う画像テキストデータセットを使用した微調整。- トレーニングデータと方法論
- Chitrarth-1のトレーニングには、広大な多言語データセットを使用して2つのフェーズが含まれていました。
フェーズ1:アダプター事前トレーニング
-
オープンソースモデルを使用して複数のインド言語に翻訳された多様なデータセットで事前に訓練されています。
- 英語とインド語のバランスの取れた表現を維持して、公平なパフォーマンスを確保しました。 単一の言語に対するバイアスを避けるように設計され、効率と堅牢性のために最適化。
- フェーズ2:命令チューニング
複雑な命令データセットで微調整して、マルチモーダル推論機能を強化します。 英語ベースの命令調整データセットとその多言語翻訳を使用しました
多様なインドの画像(性格、記念碑、アートワーク、料理)を特徴とするビジョン言語データセットが含まれています。- バランスの取れたドメイン表現のための高品質の独自の英語テキストデータを組み込んだ。
- パフォーマンスとベンチマーク
詳細については、ここをクリックしてください。
chitrarth-1
へのアクセスChitrarth-1は介してアクセス可能です
- 顔の抱き合った顔:直接使用または微調整。 (ここをクリックしてアクセスしてください)
- github:(元の記事で提供されているコード)
- krutrimクラウド:(探索するにはここをクリックしてください)
chitrarth-1 in Action Chitrarth-1の機能の例には、画像分析、画像キャプションの生成、UI/UX画面分析(元の記事で提供されている画像)が含まれます。
結論
以上がChitrarth-1:Krutrim AI Labsによる多言語VLMの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

NvidiaのNemotron-Mini-4B-Instruct:オンデバイスAIの強力な小言語モデル Nvidiaは最近、速度とデバイス展開のために最適化されたコンパクトでありながら有能な小言語モデル(SLM)であるNemotron-Mini-4B-Instructを発表しました。 から派生した

AIエージェント:ヒューマンコンピューターの相互作用の未来 「AIエージェントは、将来コンピューターと対話する主要な方法になります。彼らは私たちのニーズと好みを理解し、タスクと意思決定makiで積極的に私たちを助けます

導入 生成AI(Genai)の分野は、さまざまな組織や個人による採用に沿った雇用機会に満ちています。私もあなたがgenaiを使ってたくさんのお金を稼ぐことができると言ったらどうでしょう、私は

生成AI:誇大宣伝と現実に深く潜ること 生成AIの急速な進歩は、激しい議論を引き起こしました。公開された議論で知られるRedditは、この変革的な技術に関する豊かな意見の風景を提供します。この芸術

導入 コンピュータービジョンの領域内では、人間の姿勢の推定は、現実やゲームの増加から機械的自律性とヘルスケアに拡張されるアプリケーションを備えた魅力的な分野として存在します。この記事は脱落します

AIエージェント:ソーシャルメディアコンテンツのモデレーションとキュレーションの革新 ソーシャルメディアプラットフォームでのユーザー生成コンテンツの爆発には、洗練されたコンテンツの節度とキュレーションが必要です。 人間のモデレーターだけでは、純粋なボルを処理できません

NASAの宇宙ミッションに動力を与えるプログラミング言語の探索 太陽系を横切って宇宙船を導く複雑なコードを想像してください。 NASAでは、これらの成果を推進するソフトウェアは普通ではありません。その

生成AIは、コーディングユーザーと非技術ユーザーの間のギャップを埋めています。 AIのLlamaCoderなどのツールは、ユーザーが単純なプロンプトでアプリケーションを構築できるようにし、広範なコーディング知識の必要性を最小限に抑えます。この記事では、建物を示しています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

WebStorm Mac版
便利なJavaScript開発ツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)
