Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축-일체 포함-php.cn

집

기술 주변기기

일체 포함

Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축

Jennifer Aniston

Feb 28, 2025 pm 04:37 PM

Google의 Gemini 2.0 Pro : 멀티 모달 AI 기능 및 배포에 대한 깊은 다이빙 Google은 아직 가장 진보 된 AI 모델 인 Gemini 2.0 Pro를 공개했습니다. 현재 실험 단계에서 개발자를위한 API를 통해 액세스 할 수 있습니다. 이 강력한 모델은 코딩과 복잡한 추론에 빛을 발하며 광범위한 정보를 처리하기 위해 2 백만 개의 토큰 컨텍스트 창을 자랑합니다. Google 검색을 활용하고 코드를 실행하는 기능이 다양성에 추가됩니다. 이 튜토리얼은 Google의 Genai Python 패키지를 사용하여 Gemini 2.0 Pro 기능에 액세스하는 방법을 보여줍니다. OpenAI 및 Deepseek 모델에 대한 비교 분석은 Gemini 2.0 Flash 사고 실험에 대한 가이드를 참조하십시오. Adel Nehme의 자습서는 Gemini 2.0을 사용하여 멀티 모달 앱을 구축하는 데 대한 추가 통찰력을 제공합니다.

gemini 2.0 pro 설정 Gemini 2.0 Pro에 대한 액세스는 Google AI Studio를 통해서만 Google 계정이 필요합니다.

Google AI Studio Login : Google AI Studio 웹 사이트에 액세스하고 로그인합니다.

API 키 생성 : 대시 보드로 이동하여 찾아서 "API 키 얻기"를 클릭 한 다음 "API 키 만들기"를 클릭하십시오.

출처 : Google AI Studio

환경 변수 : 환경 변수를 새로 생성 된 키로 설정하십시오.

파이썬 패키지 설치 :
필요한 패키지를 설치하여 :
gemini 2.0 프로 기능 탐색
Gemini Python 클라이언트를 사용하여 코드 실행과 함께 텍스트, 이미지, 오디오 및 문서 처리 기능을 탐색하자.
텍스트 생성 :
다음 코드 스 니펫은 실시간 피드백에 대한 스트리밍 응답을 사용하여 텍스트 생성을 보여줍니다.
이미지 이해 :
베개 사용, 우리는 이미지를 처리 할 수 있습니다 :
pip install google-genai gradio

오디오 이해 : gemini 2.0 Pro 직접 프로세스 오디오 :

문서 이해 :
import os from google import genai API_KEY = os.environ.get("GEMINI_API_KEY") client = genai.Client(api_key=API_KEY) response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Explain how the Stock Market works"]) for chunk in response: print(chunk.text, end="")
랑 체인이나 헝겊으로 PDF를 직접 처리하십시오 :

코드 생성 및 실행 : Gemini 2.0 Pro의 눈에 띄는 기능은 API 내에서 코드를 생성하고 실행하는 기능입니다.

from google import genai from google.genai import types import PIL.Image image = PIL.Image.open('image.png') response = client.models.generate_content_stream( model="gemini-2.0-pro-exp-02-05", contents=["Describe this image", image]) for chunk in response: print(chunk.text, end="")
(참고 : Gradio 응용 프로그램, 이미지 표시 및 세부 오류 처리를위한 전체 코드는 원본 텍스트에 언급 된 Github 저장소에서 사용할 수 있습니다.이 응답은 명확성을위한 응축 버전입니다.)

Gradio 응용 프로그램을 구축하고 배포하는 제공된 GitHub 리포지토리 (Gemini-2-Pro-Chat)에는 Gradio 응용 프로그램 코드가 포함되어 있습니다. 복제하고 환경을 설정 한 후 로컬로 실행하십시오. 포옹 페이스 공간에 배치하려면 새로운 공간을 만들고, 저장소를 복제하고, 파일 ()을 추가하고, 지시대로 를 수정하고, 변경을 밀어 넣는 것이 포함됩니다. 포옹 페이스 스페이스 설정에서 를 비밀로 추가하는 것을 잊지 마십시오.

. 결론
with open('audio.wav', 'rb') as f: audio_bytes = f.read() response = client.models.generate_content_stream( model='gemini-2.0-pro-exp-02-05', contents=[ 'Describe this audio', types.Part.from_bytes( data=audio_bytes, mime_type='audio/wav', ) ] ) for chunk in response: print(chunk.text, end="")

Gemini 2.0 Pro는 고성능 AI 응용 프로그램의 생성을 단순화합니다. 다중 모드 기능 및 코드 실행 기능은 게임 체인저입니다. 현재 사용 제한이없는 경우에는 무료이지만 Google의 서비스 약관을 준수해야합니다. 이 튜토리얼은 전원을 활용하고 클라우드에 응용 프로그램을 배포하는 포괄적 인 안내서를 제공합니다.

위 내용은 Gemini 2.0 Pro를 사용하여 멀티 모달 AI 애플리케이션 구축의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.