ホームページ >テクノロジー周辺機器 >AI >Gemini 2.0 Flash:Demo Projectを使用したステップバイステップのチュートリアル
GoogleのGemini 2.0は、強力なGemini 2.0 Flashモデルを備えたもので、画像とオーディオ処理を大幅に強化します。このチュートリアルは、画面上のコンテンツを解釈し、関連する質問に答えることができるビジュアルアシスタントを構築することを導きます。
プロジェクトのデモ:
ステップ2:開発環境のセットアップ このプロジェクトでは、
、、google-genai
、pyautogui
、およびpython-dotenv
のいくつかのPythonパッケージを使用しています。 PIPを使用してそれらをインストールします:sounddevice
numpy
pip install google-genai pyautogui python-dotenv sounddevice numpy
(必要なパッケージをリストすると
conda create --name gemini python=3.11 conda activate gemini pip install -r requirements.txtを仮定します)。
requirements.txt
このセクションでは、GoogleのGemini 2 Flashモデルとライブラリを使用してコマンドラインチャットボットの作成を示しています。 トラブルシューティングについては、公式のGemini 2.0ドキュメントを参照してください。完全なコードは
(githubリポジトリ)にあります。
google.genai
text.py
python-dotenv
.env
from google import genai from dotenv import load_dotenv import os load_dotenv() client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"}) print("Connected to the AI model!")非同期API呼び出し:
asyncio
import asyncio async def main(): # ... (client initialization as above) ... async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session: # ... (send and receive messages) ... asyncio.run(main())インタラクティブなチャット:
オーディオ応答を有効にします:
インポートおよび
。sounddevice
。numpy
config = {"response_modalities": ["AUDIO"]}
を使用してオーディオストリームを管理します
sounddevice.OutputStream
audio.py
関数定義:
ツール登録:モデル構成にスキーマを提供:config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}
。
関数呼び出し処理:モデルからのプロセスツール呼び出し、対応する関数を実行し、結果を返送します。 (リポジトリのtool.py
およびtool_spec.py
を参照)。 この例では、google_search
やcode_execution
。
ステップ6:ビジュアルアシスタントの作成 このセクションでは、スクリーンショットを分析するビジュアルアシスタントの構築を詳述しています。 APIの制限により、これは同期リクエスト応答ワークフローを使用します。
同期画像処理には
を使用します。
client.models.generate_content
pyautogui
スクリーンショットキャプチャ、画像処理、およびインタラクティブなビジュアルアシスタントを作成するためのプロンプト処理を組み合わせます。 端子ウィンドウを無視するには、を含めます。 (リポジトリのを参照)。system_instruction
vision.py
このチュートリアルでは、テキストとオーディオを備えたチャットボットを構築し、拡張機能のためのツールの統合、視覚的なアシスタントの作成におけるGemini 2.0 Flashの機能を示しています。 現在のAPIには制限がありますが、マルチモーダルリアルタイムアプリケーションの可能性はエキサイティングです。 さらなる調査には、Gemini 2.0のオブジェクト検出と3D理解機能の使用が含まれます。
以上がGemini 2.0 Flash:Demo Projectを使用したステップバイステップのチュートリアルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。