>기술 주변기기 >일체 포함 >Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축

Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축

Jennifer Aniston
Jennifer Aniston원래의
2025-02-28 16:37:10167검색
Google의 Gemini 2.0 Pro : 멀티 모달 AI 기능 및 배포에 대한 깊은 다이빙 Google은 아직 가장 진보 된 AI 모델 인 Gemini 2.0 Pro를 공개했습니다. 현재 실험 단계에서 개발자를위한 API를 통해 액세스 할 수 있습니다. 이 강력한 모델은 코딩과 복잡한 추론에 빛을 발하며 광범위한 정보를 처리하기 위해 2 백만 개의 토큰 컨텍스트 창을 자랑합니다. Google 검색을 활용하고 코드를 실행하는 기능이 다양성에 추가됩니다. 이 튜토리얼은 Google의 Genai Python 패키지를 사용하여 Gemini 2.0 Pro 기능에 액세스하는 방법을 보여줍니다. OpenAI 및 Deepseek 모델에 대한 비교 분석은 Gemini 2.0 Flash 사고 실험에 대한 가이드를 참조하십시오. Adel Nehme의 자습서는 Gemini 2.0을 사용하여 멀티 모달 앱을 구축하는 데 대한 추가 통찰력을 제공합니다.

gemini 2.0 pro 설정 Gemini 2.0 Pro에 대한 액세스는 Google AI Studio를 통해서만 Google 계정이 필요합니다.

Google AI Studio Login :

API 키 생성 : 대시 보드로 이동하여 찾아서 "API 키 얻기"를 클릭 한 다음 "API 키 만들기"를 클릭하십시오.

    출처 : Google AI Studio
  1. 환경 변수 : 환경 변수를 새로 생성 된 키로 설정하십시오.

  2. 파이썬 패키지 설치 :
  3. 필요한 패키지를 설치하여 :

    gemini 2.0 프로 기능 탐색

    Gemini Python 클라이언트를 사용하여 코드 실행과 함께 텍스트, 이미지, 오디오 및 문서 처리 기능을 탐색하자.
      텍스트 생성 :
    1. 다음 코드 스 니펫은 실시간 피드백에 대한 스트리밍 응답을 사용하여 텍스트 생성을 보여줍니다.
    2. 이미지 이해 :
    베개 사용, 우리는 이미지를 처리 ​​할 수 ​​있습니다 :
    <code class="language-bash">pip install google-genai gradio</code>
    1. 오디오 이해 : gemini 2.0 Pro 직접 프로세스 오디오 :
    문서 이해 :
    <code class="language-python">import os
    from google import genai
    
    API_KEY = os.environ.get("GEMINI_API_KEY")
    client = genai.Client(api_key=API_KEY)
    
    response = client.models.generate_content_stream(
        model="gemini-2.0-pro-exp-02-05",
        contents=["Explain how the Stock Market works"])
    for chunk in response:
        print(chunk.text, end="")</code>
    랑 체인이나 헝겊으로 PDF를 직접 처리하십시오 :
    1. 코드 생성 및 실행 : Gemini 2.0 Pro의 눈에 띄는 기능은 API 내에서 코드를 생성하고 실행하는 기능입니다.
    <code class="language-python">from google import genai
    from google.genai import types
    import PIL.Image
    
    image = PIL.Image.open('image.png')
    response = client.models.generate_content_stream(
        model="gemini-2.0-pro-exp-02-05",
        contents=["Describe this image", image])
    for chunk in response:
        print(chunk.text, end="")</code>
    (참고 : Gradio 응용 프로그램, 이미지 표시 및 세부 오류 처리를위한 전체 코드는 원본 텍스트에 언급 된 Github 저장소에서 사용할 수 있습니다.이 응답은 명확성을위한 응축 버전입니다.)
    1. Gradio 응용 프로그램을 구축하고 배포하는 제공된 GitHub 리포지토리 (Gemini-2-Pro-Chat)에는 Gradio 응용 프로그램 코드가 포함되어 있습니다. 복제하고 환경을 설정 한 후 로컬로 실행하십시오. 포옹 페이스 공간에 배치하려면 새로운 공간을 만들고, 저장소를 복제하고, 파일 ()을 추가하고, 지시대로 를 수정하고, 변경을 밀어 넣는 것이 포함됩니다. 포옹 페이스 스페이스 설정에서 를 비밀로 추가하는 것을 잊지 마십시오.
    . 결론
    <code class="language-python">with open('audio.wav', 'rb') as f:
        audio_bytes = f.read()
    
    response = client.models.generate_content_stream(
      model='gemini-2.0-pro-exp-02-05',
      contents=[
        'Describe this audio',
        types.Part.from_bytes(
          data=audio_bytes,
          mime_type='audio/wav',
        )
      ]
    )
    
    for chunk in response:
        print(chunk.text, end="")</code>
      Gemini 2.0 Pro는 고성능 AI 응용 프로그램의 생성을 단순화합니다. 다중 모드 기능 및 코드 실행 기능은 게임 체인저입니다. 현재 사용 제한이없는 경우에는 무료이지만 Google의 서비스 약관을 준수해야합니다. 이 튜토리얼은 전원을 활용하고 클라우드에 응용 프로그램을 배포하는 포괄적 인 안내서를 제공합니다.

위 내용은 Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.