ホームページ >テクノロジー周辺機器 >AI >Gemini 1.5 Pro APIチュートリアル:Google' s LLMを始めましょう

Gemini 1.5 Pro APIチュートリアル:Google' s LLMを始めましょう

Joseph Gordon-Levitt
Joseph Gordon-Levittオリジナル
2025-03-06 10:34:09154ブラウズ

gemini 1.5 pro:Googleの高度なマルチモーダルAIとそのAPIに深く掘り下げます

GoogleのGemini 1.5 Proは、AIでの大きな前進を表し、テキスト、ビデオ、オーディオモダリティ全体で長いコンテキストの推論機能を誇っています。このチュートリアルは、検索、質問の回答、コンテキスト内学習などのタスクのGemini 1.5 Pro APIに接続および利用することを導きます。 ジェミニファミリーをより広く理解するために、このリソースを調べてください。 ジェミニファミリー:能力のスペクトル

Gemini AIファミリーは、Google ResearchとGoogle Deepmindによって開発されたいくつかの生成的AIモデルで構成されています。これらのモデルは、多様なマルチモーダルタスクで優れており、開発者がコンテンツの作成と問題解決を支援します。 各モデルバリアントは、特定のアプリケーションに合わせて調整され、さまざまなシナリオでパフォーマンスを最適化します。 家族は、3つのサイズの層を提供することにより、計算のニーズと機能のバランスをとります。

このチュートリアルは、1.5シリーズの最初のモデルであるGemini 1.5 Proに焦点を当てています。

Gemini 1.5 Pro:前例のない長いコンテストの理解

Gemini 1.5 Proの実質的なコンテキストウィンドウ(少なくとも1,000万トークン)により、さまざまなアプリケーションで広範なコンテキストを理解できます。長い依存タスク全体の厳密なテストは、その並外れた能力を示しています。 Haystackが1,000万トークンを超えていても、「Heedle-in-a-haystack」シナリオでほぼ完璧なリコール(> 99%)を達成しました。 Gemini 1.5 Proは、特に膨大な量のコンテンツ全体で相互依存を理解する必要があるタスクで、外部検索方法を使用しているものを含む競合他社を上回りました。 単一の言語文書から新しい言語を翻訳するなど、コンテキスト内学習を実行する能力も注目に値します。 この強化されたロングコンテキストパフォーマンスは、その固有のマルチモーダル能力を損なうものではありません。さまざまな分野で前任者(Gemini 1.0 Pro)(数学、科学、推論で28.9%)で大幅に改善され、多くのベンチマークでGemini 1.0 Ultraモデルを上回りました。

データソース

包括的な詳細については、テクニカルレポートを参照してください。「Gemini 1.5:何百万ものコンテキストにわたってマルチモーダル理解のロックを解除してください」。 Gemini 1.5 Pro Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM の実際のアプリケーションgemini 1.5 Proの数百万のトークンを処理する能力は、革新的なアプリケーションへのドアを開きます。

ソフトウェアエンジニアリング:大規模なコードベース内の特定のコードロケーションを特定できます(たとえば、746,152トークンJaxコードベース内のコア自動分化方法を識別します)

>

言語の翻訳:

限られたオンラインデータを持つ言語間で翻訳できます。 これは、絶滅危edageされた言語を保存することの可能性を示しています

    画像とビデオ分析:
  • 長いテキスト内のシーンを識別できます(たとえば、スケッチに基づいてlesmisérablesのシーンを見つける)とビデオ(例えば、「Sherlock Jr.」の特定のフレームから情報を抽出し、スケッチからの識別)。
  • gemini 1.5 pro apiへの接続:ステップバイステップガイド APIを介してGemini 1.5 Proのパワーにアクセスする方法を調べてみましょう。
  • ステップ1:APIキー開発者ページのGoogle AIに移動します(ログインしていることを確認してください)。 [APIキーを取得]をクリックして生成します。 プロジェクトをセットアップする必要があります。

    Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

    ステップ2:Python環境をセットアップ

    必要なPythonパッケージをインストールします:

    pip install google-generativeai

    JUPYTERノートブックに必要なライブラリをインポート:

    import google.generativeai as genai
    from google.generativeai.types import ContentType
    from PIL import Image
    from IPython.display import Markdown
    import time
    import cv2

    ステップ3:API呼び出しを行いますキーを使用してAPIを構成します:

    利用可能なモデルを確認してください:
    GOOGLE_API_KEY = 'your-api-key-goes-here'
    genai.configure(api_key=GOOGLE_API_KEY)

    アクセスジェミニ1.5 Pro:
    for m in genai.list_models():
        if 'generateContent' in m.supported_generation_methods:
            print(m.name)

    単純なテキストプロンプトを作成します:
    model = genai.GenerativeModel('gemini-1.5-pro-latest')

    response = model.generate_content("Please provide a list of the most influential people in the world.")
    print(response.text)

    Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM gemini aiは複数の応答候補を提供します。最高のものを選択してください。

    Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM ジェミニ1.5 Pro

    での画像プロンプト

    画像処理を実証しましょう。 「bookshelf.jpeg」という名前の画像があると仮定します

    text_prompt = "List all the books and help me organize them into three categories."
    bookshelf_image = Image.open('bookshelf.jpeg')
    prompt = [text_prompt, bookshelf_image]
    response = model.generate_content(prompt)
    Markdown(response.text)

    Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM 結論Gemini 1.5 Pro API Tutorial: Getting Started With Google's LLM

    Gemini 1.5 Proは、拡張されたコンテキストウィンドウとマルチモーダル機能を備えており、さまざまなアプリケーションに強力なツールを提供します。 そのAPIは、多様なデータ型を使用する柔軟性を提供し、開発者にとって貴重な資産となっています。 AIの知識を促進するには、このスキルトラックを検討してください。

以上がGemini 1.5 Pro APIチュートリアル:Google' s LLMを始めましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。