Rumah >Peranti teknologi >AI >Cara Menggunakan Pratonton Audio GPT-4O dengan Langchain dan Chatopenai

Cara Menggunakan Pratonton Audio GPT-4O dengan Langchain dan Chatopenai

Jennifer Anistonasal: 2025-03-03 09:04:11526semak imbas

Tutorial ini menunjukkan cara memanfaatkan model GPT-4O-Audio-Preview OpenAI dengan Langchain untuk pemprosesan audio lancar dalam aplikasi yang dibolehkan suara. Kami akan merangkumi persediaan model, pengendalian audio, penjanaan respons teks dan audio, dan membina aplikasi lanjutan.

kes penggunaan GPT-4O-4O-AUDIO-PREVIEW Lanjutan

Bahagian ini memperincikan teknik canggih, termasuk alat kerja mengikat dan pelbagai langkah untuk mewujudkan penyelesaian AI yang canggih. Bayangkan pembantu suara yang menyalin audio dan mengakses sumber data luaran - Bahagian ini menunjukkan kepada anda bagaimana.

alat panggilan

Panggilan alat meningkatkan keupayaan AI dengan mengintegrasikan alat atau fungsi luaran. Daripada hanya memproses audio/teks, model boleh berinteraksi dengan API, melakukan pengiraan, atau mengakses maklumat seperti data cuaca.

kaedah Langchain mengintegrasikan alat luaran dengan model GPT-4O-Audio-Preview. Model ini menentukan kapan dan cara menggunakan alat ini. bind_tools

Berikut adalah contoh praktikal mengikat alat penggabungan cuaca:

import requests
from pydantic import BaseModel, Field

class GetWeather(BaseModel):
   """Fetches current weather for a given location."""
   location: str = Field(..., description="City and state, e.g., London, UK")
   def fetch_weather(self):
       API_KEY = "YOUR_API_KEY_HERE"  # Replace with your OpenWeatherMap API key
       url = f"http://api.openweathermap.org/data/2.5/weather?q={self.location}&appid={API_KEY}&units=metric"
       response = requests.get(url)
       if response.status_code == 200:
           data = response.json()
           return f"Weather in {self.location}: {data['weather'][0]['description']}, {data['main']['temp']}°C"
       else:
           return f"Could not fetch weather for {self.location}."

weather_tool = GetWeather(location="London, UK")
print(weather_tool.fetch_weather())

Kod ini mentakrifkan alat

menggunakan API OpenWeatherMap. Ia mengambil lokasi, mengambil data cuaca, dan mengembalikan rentetan yang diformat. GetWeather

Tugas Chaining: Aliran Kerja Multi-Langkah

Tugas Chaining membolehkan proses kompleks, pelbagai langkah menggabungkan pelbagai alat dan panggilan model. Sebagai contoh, pembantu boleh menyalin audio dan kemudian melakukan tindakan berdasarkan lokasi yang ditranskripsikan. Mari berantai transkripsi audio dengan carian cuaca:

import base64
import requests
from pydantic import BaseModel, Field
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# (GetWeather class remains the same as above)

llm = ChatOpenAI(model="gpt-4o-audio-preview")

def audio_to_text(audio_b64):
    messages = [("human", [{"type": "text", "text": "Transcribe:"}, {"type": "input_audio", "input_audio": {"data": audio_b64, "format": "wav"}}])]
    return llm.invoke(messages).content

prompt = ChatPromptTemplate.from_messages([("system", "Transcribe audio and get weather."), ("human", "{text}")])

llm_with_tools = llm.bind_tools([GetWeather])
chain = prompt | llm_with_tools

audio_file = "audio.wav" # Replace with your audio file
with open(audio_file, "rb") as f:
    audio_b64 = base64.b64encode(f.read()).decode('utf-8')

result = chain.run(text=audio_to_text(audio_b64))
print(result)

Kod ini menyalin audio, mengekstrak lokasi, dan menggunakan alat

untuk mengambil cuaca untuk lokasi tersebut. GetWeather

Fine-Tuning GPT-4O-AUDIO-PREVIEW

Fine-penalaan membolehkan penyesuaian untuk tugas-tugas tertentu. Sebagai contoh, aplikasi transkripsi perubatan boleh mendapat manfaat daripada model yang terlatih dalam istilah perubatan. OpenAI membolehkan penalaan halus dengan dataset tersuai. (Contoh kod yang ditinggalkan untuk keringkasan, tetapi konsep ini melibatkan menggunakan ID model yang baik dalam

instantiation.)

Contoh Praktikal: Pembantu Praktikal: Pembantu suara ChatOpenAI

mari kita membina pembantu suara yang mengambil input audio, menghasilkan respons, dan memberikan output audio. aliran kerja

menangkap audio dari mikrofon.

Model menyalin audio.

transkripsi diproses untuk menghasilkan respons.
model menjana tindak balas audio.

Kod ini menangkap audio, menyalinnya, menghasilkan respons, dan menyimpan respons audio ke fail

.

How to Use GPT-4o Audio Preview With LangChain and ChatOpenAI

Kesimpulan

Tutorial ini mempamerkan model GPT-4O-Audio-Preview OpenAI dan integrasi dengan Langchain untuk membina aplikasi yang dibolehkan audio yang mantap. Model ini menawarkan asas yang kukuh untuk mewujudkan pelbagai penyelesaian berasaskan suara. (Pautan ke tutorial Langchain tambahan yang ditinggalkan seperti yang diminta.)

Atas ialah kandungan terperinci Cara Menggunakan Pratonton Audio GPT-4O dengan Langchain dan Chatopenai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

String for using this location input gpt langchain Access Foundation Transcription

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Algoritma A*: Panduan LengkapArtikel seterusnya：Algoritma A*: Panduan Lengkap

Artikel berkaitan

Lihat lagi