Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築-AI-php.cn

ホームページ

テクノロジー周辺機器

Gemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築

Jennifer Aniston

Feb 28, 2025 pm 04:37 PM

Google's Gemini 2.0 Pro：マルチモーダルAI機能と展開に深く潜ります

GoogleはGemini 2.0 Proを発表しました。これは、最も高度なAIモデルです。現在、実験段階では、アクセスは開発者向けのAPI経由です。この強力なモデルは、コーディングと複雑な推論に輝いており、広範な情報を処理するための200万台のトークンコンテキストウィンドウを誇っています。 Google検索と実行コードを活用する能力は、その汎用性に追加されます。

このチュートリアルでは、GoogleのGenai Pythonパッケージを使用してGemini 2.0 Proの機能にアクセスし、ユーザーフレンドリーなグラデーションアプリケーションを構築し、パブリックアクセスのためにフェイススペースを抱き締めるために展開する方法を示しています。 OpenaiおよびDeepseekモデルとの比較分析については、Gemini 2.0 Flash Thinking Experimentalのガイドを参照してください。 Adel Nehmeのチュートリアルでは、Gemini 2.0：

を使用してマルチモーダルアプリの構築に関するさらなる洞察を提供します。

GEMINI 2.0 Pro のセットアップ

Gemini 2.0 Proへのアクセスは、Google AI Studioを介してのみであり、Googleアカウントが必要です。

Google AI Studio Login：
Google AI Studio Webサイトにアクセスしてログインします。
ダッシュボードに移動し、[APIキーを取得]を見つけてクリックし、「APIキーの作成」が続きます。」

出典：Google AI Studio

環境変数を新しく生成されたキーに設定します。
GEMINI_API_KEYpythonパッケージのインストール：
使用を使用して必要なパッケージをインストールします
gemini 2.0 pro機能の探索

ジェミニPythonクライアントを利用して、テキスト、画像、オーディオ、ドキュメント処理、コードの実行とともに機能を調査しましょう。

テキスト生成：次のコードスニペットは、リアルタイムフィードバックのストリーミング応答を使用してテキスト生成を実証します：

pip install google-genai gradio

画像の理解：枕を使用して、画像を処理できます：

import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")

オーディオの理解：gemini 2.0 proは直接処理されますオーディオ：

from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")

ドキュメントの理解：LangchainまたはragなしでPDFを直接処理：

with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")

コード生成と実行： gemini 2.0 proの傑出した機能は、API内でコードを生成および実行する機能です：

from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")

（注：グラデーションアプリケーション、画像表示、および詳細なエラー処理の完全なコードは、元のテキストで言及されているGitHubリポジトリで利用できます。この応答は、明確にするための凝縮バージョンです。

グラデーションアプリケーションの構築と展開

提供されたGithubリポジトリ（Gemini-2-Pro-chat）には、グラデーションアプリケーションコードが含まれています。環境をクローニングしてセットアップした後、

局所的に実行します。フェイススペースを抱き締めるための展開には、新しいスペースの作成、リポジトリのクローン化、

ファイルの追加（python app.pyを含む）、指示に従ってrequirements.txtを変更し、変更をプッシュすることが含まれます。あなたのgoogle-genai==1.0.0を抱きしめるフェイススペースの設定の秘密として追加することを忘れないでください。 README.mdGEMINI_API_KEY結論

Gemini 2.0 Proは、高性能AIアプリケーションの作成を簡素化します。マルチモーダル機能とコード実行機能は、ゲームチェンジャーです。現在、使用制限はありませんが、Googleの利用規約を遵守することを忘れないでください。このチュートリアルは、そのパワーを活用し、アプリケーションをクラウドに展開するための包括的なガイドを提供します。

以上がGemini 2.0 Proを使用したマルチモーダルAIアプリケーションの構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

メタの新しいAIアシスタント：生産性ブースターまたはタイムシンク？May 01, 2025 am 11:18 AM

Metaは、NVIDIA、IBM、Dellなどのパートナーと協力して、Llama Stackのエンタープライズレベルの展開統合を拡大しました。セキュリティの観点から、MetaはLlama Guard 4、Llamafirewall、Cyberseceval 4などの新しいツールを立ち上げ、AIセキュリティを強化するためにLlama Defendersプログラムを開始しました。さらに、METAは、公共サービス、ヘルスケア、教育の改善に取り組んでいる新興企業を含む、Llama Impact Grantsの150万ドルを10のグローバル機関に分配しています。 Llama 4を搭載した新しいメタAIアプリケーションは、メタAIとして考案されました

Gen Zersの80％はAI：研究と結婚しますMay 01, 2025 am 11:17 AM

人間との相互作用の先駆者であるJoi Aiは、これらの進化する関係を説明するために「AI-lationships」という用語を導入しました。 Joi Aiの関係療法士であるJaime Bronsteinは、これらが人間cを置き換えることを意図していないことを明確にしています

AIはインターネットのボット問題を悪化させています。この20億ドルのスタートアップは最前線にありますMay 01, 2025 am 11:16 AM

オンライン詐欺とボット攻撃は、企業にとって大きな課題をもたらします。小売業者は、ボットの買いだめ製品、銀行の戦闘口座の買収、ソーシャルメディアプラットフォームと戦い、なりすまし者と闘っています。 AIの台頭は、この問題を悪化させます

ロボットへの販売：あなたのビジネスを作ったり壊したりするマーケティング革命May 01, 2025 am 11:15 AM

AIエージェントは、マーケティングに革命をもたらす態勢が整っており、以前の技術的変化の影響を上回る可能性があります。これらのエージェントは、生成AIの大幅な進歩を表し、ChatGPTのような情報を処理するだけでなく、Actioも取る

コンピュータービジョンテクノロジーがどのようにNBAプレーオフを司会しているかMay 01, 2025 am 11:14 AM

重要なNBAゲーム4の決定に対するAIの影響 2つの重要なゲーム4 NBAマッチアップは、司会におけるAIのゲームを変える役割を紹介しました。最初に、デンバーのニコラ・ジョキッチの逃した3ポインターは、アーロン・ゴードンの最後の2秒の路地につながりました。ソニーのホー

AIがどのように再生医療の未来を加速しているかMay 01, 2025 am 11:13 AM

伝統的に、再生医療の専門知識を拡大すると、世界的に大規模な旅行、実践的なトレーニング、長年のメンターシップが必要でした。現在、AIはこの風景を変えており、地理的な制限を克服し、ENを通じて進歩を加速しています

Intel Foundry Direct Connect 2025からのキーテイクアウトMay 01, 2025 am 11:12 AM

Intelは、製造プロセスを主要な位置に戻すように取り組んでいますが、Fab Semiconductorの顧客を引き付けてFabでチップを作成しようとしています。この目的のために、Intelは、そのプロセスの競争力を証明するだけでなく、パートナーが馴染みのある成熟したワークフローでチップを製造できることを実証するために、業界へのより多くの信頼を築かなければなりません。今日私が聞いたことはすべて、インテルがこの目標に向かっていると信じています。新しいCEOのタンリバイの基調講演がその日をキックオフしました。タンリバイは簡単で簡潔です。彼は、IntelのFoundry Servicesにおけるいくつかの課題と、これらの課題に対処し、将来のIntelのFoundry Servicesの成功したルートを計画するために企業が行った対策を概説しています。 Tan Libaiは、IntelのOEMサービスが顧客をより多くするために実装されているプロセスについて話しました