Rumah >Peranti teknologi >AI >Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo
inilah demo projek:
Langkah 2: Menyediakan persekitaran pembangunan
Projek ini menggunakan beberapa pakej python:, google-genai
, pyautogui
, python-dotenv
, dan sounddevice
. Pasangnya menggunakan PIP: numpy
pip install google-genai pyautogui python-dotenv sounddevice numpySebagai alternatif, gunakan persekitaran conda:
conda create --name gemini python=3.11 conda activate gemini pip install -r requirements.txt(dengan asumsi
menyenaraikan pakej yang diperlukan). requirements.txt
Langkah 3: Membina chatbot berasaskan teks
Bahagian ini menunjukkan mencipta chatbot baris arahan menggunakan model Flash Gemini 2 Google dan perpustakaan. Rujuk kepada dokumentasi rasmi Gemini 2.0 untuk menyelesaikan masalah. Kod lengkap berada di google.genai
(repositori github). text.py
python-dotenv
: .env
from google import genai from dotenv import load_dotenv import os load_dotenv() client = genai.Client(api_key=os.getenv("GOOGLE_API_KEY"), http_options={"api_version": "v1alpha"}) print("Connected to the AI model!")
asyncio
import asyncio async def main(): # ... (client initialization as above) ... async with client.aio.live.connect(model="gemini-2.0-flash-exp", config={"response_modalities": ["TEXT"]}) as session: # ... (send and receive messages) ... asyncio.run(main())
Langkah 4: Mengintegrasikan mod audio
Dayakan respons audio dengan mengubah kod:
sounddevice
. numpy
config = {"response_modalities": ["AUDIO"]}
sounddevice.OutputStream
audio.py
Langkah 5: Memperluas fungsi dengan alat
Gemini 2.0 membolehkan integrasi alat. Contoh ini menunjukkan alat pembacaan fail:
def load_file_content(filename): try: with open(filename, "rt") as f: return {"result": f.read()} except Exception as e: return {"error": "Could not load file content"}
Definisi skema: Tentukan skema untuk fungsi, termasuk nama, penerangan, parameter, dan output.
Pendaftaran Alat: Sediakan skema kepada konfigurasi model: config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}
.
Pengendalian panggilan fungsi: Panggilan alat proses dari model, laksanakan fungsi yang sepadan, dan hantar hasilnya kembali. (Lihat tool.py
dan tool_spec.py
dalam repositori). Contohnya juga menunjukkan cara menggunakan alat terbina dalam seperti google_search
dan code_execution
.
Langkah 6: Mewujudkan Pembantu Visual
Butiran bahagian ini membina pembantu visual yang menganalisis tangkapan skrin. Oleh kerana batasan API, ini menggunakan aliran kerja tindak balas permintaan.
Permintaan segerak: Gunakan client.models.generate_content
untuk pemprosesan imej segerak.
Pengendalian imej: Gunakan PIL untuk memuatkan dan mengubah saiz imej.
tangkapan tangkapan skrin: menggunakan pyautogui
untuk menangkap tangkapan skrin.
Pelaksanaan Pembantu Visual: Campurkan tangkapan tangkapan skrin, pemprosesan imej, dan pengendalian segera untuk membuat pembantu visual interaktif. Sertakan system_instruction
untuk mengabaikan tetingkap terminal. (Lihat vision.py
di repositori).
Kesimpulan
Tutorial ini menunjukkan keupayaan Gemini 2.0 Flash dalam membina chatbots dengan teks dan audio, mengintegrasikan alat untuk fungsi lanjutan, dan mewujudkan pembantu visual. Walaupun API semasa mempunyai batasan, potensi aplikasi masa nyata multimodal adalah menarik. Eksplorasi lanjut boleh melibatkan menggunakan pengesanan objek Gemini 2.0 dan keupayaan pemahaman 3D.
Atas ialah kandungan terperinci Gemini 2.0 Flash: Tutorial Langkah demi Langkah dengan Projek Demo. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!