首页 >科技周边 >人工智能 >使用Gemini 2.0 Pro构建多模式AI应用程序

使用Gemini 2.0 Pro构建多模式AI应用程序

Jennifer Aniston
Jennifer Aniston原创
2025-02-28 16:37:10167浏览

Google的Gemini 2.0 Pro:深入深入了解多模式AI功能和部署

Google已揭露了Gemini 2.0 Pro,这是其最先进的AI模型。 目前处于实验阶段,开发人员的访问是通过API访问。 这个强大的模型在编码和复杂的推理方面闪耀,拥有200万个令牌上下文窗口,用于处理广泛的信息。 它利用Google搜索和执行代码的能力增加了其多功能性。

>

>本教程演示了如何使用Google的genai python软件包访问Gemini 2.0 Pro的功能,构建用户友好的Gradio应用程序,并将其部署到拥抱面部空间以供公共访问。 有关针对OpenAI和DeepSeek模型的比较分析,请参见我们关于Gemini 2.0 Flash Thinking实验的指南。 阿德尔·尼姆(Adel Nehme)的教程提供了进一步的见解,以使用双子座2.0:

构建多模式应用程序。

设置GEMINI 2.0 Pro > >访问Gemini 2.0 Pro的访问是通过Google AI Studio,需要Google帐户。

  1. > Google AI Studio登录:

    访问Google AI Studio网站并登录。>

  2. API密钥生成:
  3. 导航到仪表板,找到并单击“获取API键”,然后是“创建API键”。

Building Multimodal AI Application with Gemini 2.0 Pro 来源:Google AI Studio

>

>环境变量:
    将环境变量设置为新生成的密钥。>
  1. python软件包安装:GEMINI_API_KEY安装所需的软件包:

  2. 探索双子座2.0 Pro功能

>让我们利用Gemini Python客户端探索其功能:文本,图像,音频和文档处理以及代码执行。
  1. >文本生成:>以下代码段使用用于实时反馈的流响应的文本生成:
<code class="language-bash">pip install google-genai gradio</code>
  1. > 图像理解:使用枕头,我们可以处理图像:
<code class="language-python">import os
from google import genai

API_KEY = os.environ.get("GEMINI_API_KEY")
client = genai.Client(api_key=API_KEY)

response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Explain how the Stock Market works"])
for chunk in response:
    print(chunk.text, end="")</code>
  1. 音频理解: gemini 2.0 pro直接处理音频:
<code class="language-python">from google import genai
from google.genai import types
import PIL.Image

image = PIL.Image.open('image.png')
response = client.models.generate_content_stream(
    model="gemini-2.0-pro-exp-02-05",
    contents=["Describe this image", image])
for chunk in response:
    print(chunk.text, end="")</code>
  1. 文档理解:>直接处理没有兰链或抹布的PDF:
<code class="language-python">with open('audio.wav', 'rb') as f:
    audio_bytes = f.read()

response = client.models.generate_content_stream(
  model='gemini-2.0-pro-exp-02-05',
  contents=[
    'Describe this audio',
    types.Part.from_bytes(
      data=audio_bytes,
      mime_type='audio/wav',
    )
  ]
)

for chunk in response:
    print(chunk.text, end="")</code>
  1. >代码生成和执行: gemini 2.0 Pro的出色功能是其在API中生成和执行代码的能力:>
(注意:Gradio应用程序,图像显示和详细错误处理的完整代码,都在原始文本中提到的GitHub存储库中可用。此响应是一个凝结版本,以供清晰。
<code class="language-python">from google import genai
from google.genai import types
import pathlib

prompt = "Summarize this document"
response = client.models.generate_content_stream(
  model="gemini-2.0-pro-exp-02-05",
  contents=[
      types.Part.from_bytes(
        data=pathlib.Path('cv.pdf').read_bytes(),
        mime_type='application/pdf',
      ),
      prompt])

for chunk in response:
    print(chunk.text, end="")</code>
>

构建和部署Gradio应用程序>

提供的GitHub存储库(Gemini-2-Pro-Chat)包含Gradio应用程序代码。 克隆和设置环境后,本地运行

。 部署到拥抱面积的空间涉及创建一个新的空间,克隆存储库,添加> file(包含),按照指示进行修改

并推动更改。 切记在拥抱的面部空间设置中添加您的

作为秘密。python app.py> requirements.txtgoogle-genai==1.0.0结论README.mdGEMINI_API_KEY gemini 2.0 Pro简化了高性能AI应用程序的创建。 它的多模式功能和代码执行功能是游戏改变者。 虽然目前有使用使用限制,但请记住遵守Google的服务条款。 本教程提供了一份综合指南,以利用其权力并将应用程序部署到云中。

以上是使用Gemini 2.0 Pro构建多模式AI应用程序的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn