ホームページ >テクノロジー周辺機器 >AI >Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築
Google's Gemini 2.0 Pro:マルチモーダルAI機能と展開に深く潜ります
GoogleはGemini 2.0 Proを発表しました。これは、最も高度なAIモデルです。 現在、実験段階では、アクセスは開発者向けのAPI経由です。 この強力なモデルは、コーディングと複雑な推論に輝いており、広範な情報を処理するための200万台のトークンコンテキストウィンドウを誇っています。 Google検索と実行コードを活用する能力は、その汎用性に追加されます。
このチュートリアルでは、GoogleのGenai Pythonパッケージを使用してGemini 2.0 Proの機能にアクセスし、ユーザーフレンドリーなグラデーションアプリケーションを構築し、パブリックアクセスのためにフェイススペースを抱き締めるために展開する方法を示しています。 OpenaiおよびDeepseekモデルとの比較分析については、Gemini 2.0 Flash Thinking Experimentalのガイドを参照してください。 Adel Nehmeのチュートリアルでは、Gemini 2.0:を使用してマルチモーダルアプリの構築に関するさらなる洞察を提供します。
GEMINI 2.0 Pro のセットアップ
Gemini 2.0 Proへのアクセスは、Google AI Studioを介してのみであり、Googleアカウントが必要です。
Google AI Studio Webサイトにアクセスしてログインします。
出典:Google AI Studio
GEMINI_API_KEY
pythonパッケージのインストール:
gemini 2.0 pro機能の探索
<code class="language-bash">pip install google-genai gradio</code>
<code class="language-python">import os from google import genai API_KEY = os.environ.get("GEMINI_API_KEY") client = genai.Client(api_key=API_KEY) response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Explain how the Stock Market works"]) for chunk in response: print(chunk.text, end="")</code>
<code class="language-python">from google import genai from google.genai import types import PIL.Image image = PIL.Image.open('image.png') response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Describe this image", image]) for chunk in response: print(chunk.text, end="")</code>
<code class="language-python">with open('audio.wav', 'rb') as f: audio_bytes = f.read() response = client.models.generate_content_stream( model='gemini-2.0-pro-exp-02-05', contents=[ 'Describe this audio', types.Part.from_bytes( data=audio_bytes, mime_type='audio/wav', ) ] ) for chunk in response: print(chunk.text, end="")</code>
<code class="language-python">from google import genai from google.genai import types import pathlib prompt = "Summarize this document" response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=[ types.Part.from_bytes( data=pathlib.Path('cv.pdf').read_bytes(), mime_type='application/pdf', ), prompt]) for chunk in response: print(chunk.text, end="")</code>
(注:グラデーションアプリケーション、画像表示、および詳細なエラー処理の完全なコードは、元のテキストで言及されているGitHubリポジトリで利用できます。この応答は、明確にするための凝縮バージョンです。
グラデーションアプリケーションの構築と展開提供されたGithubリポジトリ(Gemini-2-Pro-chat)には、グラデーションアプリケーションコードが含まれています。 環境をクローニングしてセットアップした後、
局所的に実行します。 フェイススペースを抱き締めるための展開には、新しいスペースの作成、リポジトリのクローン化、ファイルの追加(python app.py
を含む)、指示に従ってrequirements.txt
を変更し、変更をプッシュすることが含まれます。 あなたのgoogle-genai==1.0.0
を抱きしめるフェイススペースの設定の秘密として追加することを忘れないでください。
README.md
GEMINI_API_KEY
結論
Gemini 2.0 Proは、高性能AIアプリケーションの作成を簡素化します。 マルチモーダル機能とコード実行機能は、ゲームチェンジャーです。 現在、使用制限はありませんが、Googleの利用規約を遵守することを忘れないでください。 このチュートリアルは、そのパワーを活用し、アプリケーションをクラウドに展開するための包括的なガイドを提供します。
以上がGemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。