ホームページ >テクノロジー周辺機器 >AI >微調整llama 3.2画像からのカロリー抽出のためのビジョン
近年、人工知能をさまざまなドメインに統合することで、テクノロジーとの相互作用が革新されました。最も有望な進歩の1つは、視覚情報とテキスト情報の両方を理解して処理できるマルチモーダルモデルの開発です。これらの中で、Llama 3.2 Visionモデルは、画像の複雑な分析を必要とするアプリケーションの強力なツールとして際立っています。この記事では、Unsloth AIを使用して食品画像からカロリー情報を抽出するためのLlama 3.2ビジョンモデルを微調整するプロセスを調査します。
学習目標データサイエンスブログの一部として公開されました。 目次llama 3.2ビジョンモデル
llama 3.2ビジョンモデルのアプリケーションllama 3.2 Visionは、次のようなさまざまなアプリケーション向けに設計されています
llama 3.2ビジョンモデルは、チャートと図の解釈に優れています。
110億モデルは、MMMU-Pro、Vision(23.7)、Chartqa(83.4)、AI2図(91.1)などの視覚ベンチマークでClaude 3 Haikuを上回ります。
その結果、Llama 3.2は、ドキュメントの理解、視覚的な質問への回答、チャートからのデータの抽出を必要とするタスクにとって理想的なオプションです。
微調整llama 3.2 11bビジョンモデルを使用しているai このチュートリアルでは、llama 3.2 11bビジョンモデルを微調整するプロセスを進めます。高度な機能を活用することにより、食品を認識し、視覚入力に基づいてカロリー含有量を推定する際のモデルの精度を高めることを目指しています。 このモデルの微調整には、食品のイメージと栄養データのニュアンスをよりよく理解するためにカスタマイズすることで、実際のアプリケーションでのパフォーマンスが向上します。データセットの準備、トレーニング環境の構成など、この微調整プロセスに関連する重要な手順を掘り下げます。また、リソースの使用を最小限に抑えながら、モデルのパフォーマンスを最適化するために、LORA(低ランク適応)などの手法を採用します。 モデルの機能をカスタマイズするために、Unsloth AIを活用します。使用するデータセットは食品画像で構成されており、それぞれにさまざまな食品のカロリー含有量に関する情報が伴います。これにより、食品関連データを効果的に分析するモデルの能力を向上させることができます。 それでは、始めましょう!
!pip install unsloth
from unsloth import FastVisionModel import torch model, tokenizer = FastVisionModel.from_pretrained( "unsloth/Llama-3.2-11B-Vision-Instruct", load_in_4bit = True, use_gradient_checkpointing = "unsloth", ) model = FastVisionModel.get_peft_model( model, finetune_vision_layers = True, finetune_language_layers = True, finetune_attention_modules = True, finetune_mlp_modules = True, r = 16, lora_alpha = 16, lora_dropout = 0, bias = "none", random_state = 3443, use_rslora = False, loftq_config = None, )
微調整オプション:
from datasets import load_dataset dataset = load_dataset("aryachakraborty/Food_Calorie_Dataset", split = "train[0:100]")
output:
アイテム1:揚げdump子 - 400-600カロリー
アイテム2:赤いソース - 200-300カロリー
合計カロリー - 600-900カロリー
総栄養情報:
カロリー:
600-900カロリー以下の入力画像に対して出力が生成されます: 元のモデルの出力から見られるように、テキストに記載されている項目は、元の入力画像に「蒸しモーモ」が含まれているにもかかわらず、「揚げたdump子」を指します。また、入力画像に存在するレタスのカロリーは、元のモデルからの出力では言及されていません。 元のモデルからの出力:
項目1:揚げたdump子 - 400-600カロリー
サービングサイズ:1枚の蒸しモーモのプレート
!pip install unsloth
Finetunedモデルの出力から見られるように、3つの項目はすべて、必要な形式でカロリーとともにテキストで正しく言及されています。 サンプルデータでのテスト また、微調整されたモデルが目に見えないデータに対してどれほど優れているかをテストします。したがって、モデルでは以前に見られなかったデータの行を選択します。
!pip install unsloth
微調整されたモデルからの出力
:from unsloth import FastVisionModel import torch model, tokenizer = FastVisionModel.from_pretrained( "unsloth/Llama-3.2-11B-Vision-Instruct", load_in_4bit = True, use_gradient_checkpointing = "unsloth", ) model = FastVisionModel.get_peft_model( model, finetune_vision_layers = True, finetune_language_layers = True, finetune_attention_modules = True, finetune_mlp_modules = True, r = 16, lora_alpha = 16, lora_dropout = 0, bias = "none", random_state = 3443, use_rslora = False, loftq_config = None, )微調整されたモデルの出力からわかるように、ピザのすべてのコンポーネントが正確に識別されており、そのカロリーも同様に言及されています。
Llama 3.2 VisionのようなAIモデルの統合は、特に食品認識や栄養分析などの分野で、視覚データの分析と相互作用の方法を変換しています。この強力なモデルをUnsloth AIで微調整することにより、食品の画像を理解し、カロリーコンテンツを正確に推定する能力を大幅に改善できます。
微調整プロセスは、LORAやUnsloth AIの効率的な機能などの高度な技術を活用し、リソースの使用を最小限に抑えながら最適なパフォーマンスを保証します。このアプローチは、モデルの精度を向上させるだけでなく、食品分析、健康監視などの実際のアプリケーションの扉を開きます。このチュートリアルを通じて、専門のタスクに最先端のAIモデルを適応させる方法を実証しました。キーテイクアウト
以上が微調整llama 3.2画像からのカロリー抽出のためのビジョンの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。