OpenaiリアルタイムAPI：例を掲載したガイド-AI-php.cn

ホームページ

テクノロジー周辺機器

OpenaiリアルタイムAPI：例を掲載したガイド

Jennifer Aniston

Mar 03, 2025 am 10:38 AM

新しく導入されたOpenAIリアルタイムAPIにより、高速で低遅延のマルチモーダルエクスペリエンスをアプリケーションに統合できます。このAPIを使用すると、ユーザーと大規模な言語モデル（LLM）の間にシームレスなスピーチからスピーチの相互作用を作成できます。

このAPIは、1つの統合されたAPIで完全なソリューションを提供するため、音声駆動型エクスペリエンスを実現するための複数のモデルの必要性を排除します。レイテンシを減らすことを目指しているだけでなく、感情的なニュアンスと自然な会話の流れも保持しています。この記事では、OpenaiリアルタイムAPIを使用して音声制御されたAIアシスタントを構築する方法を学びます。 node.jsを使用して永続的なWebSocket接続を作成し、これを端末内で使用してAPIと通信する方法を作成します。さらに、このAPIの機能を使用するReactアプリの展開についてガイドします。

WebSocketsを使用してリアルタイムAPIを使用してください

Openai APIの他のコンポーネントとは異なり、リアルタイムAPIはWebSocketを使用します。 WebSocketsは、クライアントとサーバーの間の双方向通信チャネルを確立する通信プロトコルです。 HTTPで使用される従来の要求応答モデルとは対照的に、WebSocketsは継続的なリアルタイムインタラクションをサポートしています。これにより、WebSocketは音声チャットなどのリアルタイムアプリケーションに特に適しています。

この記事では、WebSocketsがどのように機能するかをカバーし、リアルタイムAPIとの対話のいくつかの例を含めます。

node.jsを使用するので、コンピューターにインストールされるようにする必要があります。そうでない場合は、公式Webサイトからnode.jsをダウンロードしてインストールできます。スクリプトの初期化

続いて、上記で作成した.envファイルを使用してフォルダーを作成することをお勧めします。そのフォルダー内で、次のコマンドを実行してスクリプトを初期化します。

このコマンドが終了した後、これらのファイルはフォルダー内にある必要があります。

依存関係のインストール

2つのパッケージをインストールすることから始めます：

npm init -y && touch index.js

WS：これは、APIと対話するために必要なメインパッケージであるWebSocketパッケージです。

dotenv：.envファイルからAPIキーをロードするユーティリティパッケージ。

コマンドを実行して OpenaiリアルタイムAPI：例を掲載したガイドこれらをインストールしてください：

リアルタイムAPIへの接続

リアルタイムAPIとの接続を開始するには、API URLとヘッダーを渡す新しいWebSocketオブジェクトを作成して、必要な情報を使用して接続します。

WebSocketsを使用すると、いくつかのイベントが発生したときに実行するアクションを設定できます。オープンイベントを使用して、接続が確立されたら実行するコードを指定できます。
イベントリスナーを追加する一般的な構文は次のとおりです。
```
npm init -y && touch index.js
```
交換＆lt; event＆gt;イベントの名前を含む文字列と＆lt; function＆gt;イベントが発生したときに実行される関数。

接続の準備ができたらテキストを表示する方法は次のとおりです。
このコードを実行するには、コマンドを使用します
```
npm install ws dotenv
```
APIキーが正しく設定されている場合、端末に「接続が開いている」メッセージが表示されます。接続がまだ開いているため、スクリプトは実行され続けますので、手動で停止する必要があります。メッセージが受信されたときにアクションを設定します

WebSocketsを使用するときに応答できるもう1つのイベントは、メッセージイベントです。これは、サーバーからメッセージが受信されるたびにトリガーされます。受信した各メッセージを表示する関数を追加しましょう：
```
// Import the web socket library
const WebSocket = require("ws");
// Load the .env file into memory so the code has access to the key
const dotenv = require("dotenv");
dotenv.config();
function main() {
  // Connect to the API
  const url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-10-01";
  const ws = new WebSocket(url, {
      headers: {
          "Authorization": "Bearer " + process.env.OPENAI_API_KEY,
          "OpenAI-Beta": "realtime=v1",
      },
  });
}
main();
```
スクリプトの実行もsession.createdイベントを表示する必要があります。セッションが初期化されたときにAPIが送信するイベント。
その他のWebSocketイベント
上記の上記では、オープンイベントとメッセージイベントにイベントリスナーを追加する方法を学びました。 WebSocketsは、例では使用しない2つの追加イベントをサポートしています。
閉じるイベントは、ソケットが閉じたときにコールバックを追加するために使用できます：
```
ws.on(<event>, <function>);</function></event>
```
エラーイベントは、エラーが発生したときにコールバックを追加するために使用されます：

リアルタイムAPIとの通信

WebSocketsを使用するには、イベント駆動型の方法でプログラムする必要があります。メッセージは通信チャネルで前後に送信され、これらのメッセージがいつ配信または受信されるかを制御することはできません。

通信を開始するコードは、handleOpen（）内に追加する必要があります。 oそれ以外の場合は、Webソケット通信チャネルが作成される前にそのコードが実行される可能性があるため、エラーが発生します。
コード処理メッセージについても同じことが言えます。すべてのロジックは、handlemessage（）関数に移動する必要があります
```
// Add inside the main() function of index.js after creating ws
async function handleOpen() {
  console.log("Connection is opened");
}
ws.on("open", handleOpen);
```
今後の例では、次のコードを出発点として使用します。ほとんどの変更には、handleOpen（）とhandlemessage（）の更新が含まれます。

リアルタイムAPIを使用してテキストを送信および受信します
```
node index.js
```
リアルタイムAPIとの通信は、イベントを使用して発生します。 OpenAIリアルタイムドキュメントAPIには、サポートするイベントがリストされています。 Conversation.item.createイベントを使用して会話を開始します。イベントは、ドキュメントでフィールドが説明されているJSONオブジェクトとして表されます。
会話の例です。Item.Createイベントは、「Webソケットが何であるかを1つの文で説明する」プロンプトを送信します。

このイベントは、テキスト会話を開始したいことをAPIに伝えます。これは、コンテンツフィールドで指定され、「input_text」の種類を使用してテキストプロンプトを提供します。
ws.send（）メソッドを使用してメッセージを送信します。 Webソケットパッケージは引数として文字列を期待するため、json.stringify（）関数を使用してJSONイベントを文字列に変換する必要があります。これらをまとめて、上記のイベントを送信する方法は次のとおりです。
```
npm init -y && touch index.js
```
これにより会話が開始されますが、APIをトリガーして自動的に応答を送信することはありません。応答をトリガーするために、Response.Createイベントを送信します。例を次に示します：
```
npm install ws dotenv
```
このイベントは、Modalities Responseパラメーターを使用してテキスト応答を要求します。指示は最も重要な部分であり、モデルに何をしたいのか、この場合はユーザーを支援するための一般的なプロンプトを説明しています。
これら2つのイベントをhandleOpen（）関数に送信して、接続が確立されるとすぐに会話が開始されるようにします。この例からのHeandleOpen（）関数の完全な実装は次のとおりです。

着信メッセージに関しては、この例に注目する価値のあるイベントには3つのタイプがあります。応答.text.delta、response.text.done、およびresponse.doneイベント：
```
// Import the web socket library
const WebSocket = require("ws");
// Load the .env file into memory so the code has access to the key
const dotenv = require("dotenv");
dotenv.config();
function main() {
  // Connect to the API
  const url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-10-01";
  const ws = new WebSocket(url, {
      headers: {
          "Authorization": "Bearer " + process.env.OPENAI_API_KEY,
          "OpenAI-Beta": "realtime=v1",
      },
  });
}
main();
```
response.text.deltaイベントには、デルタフィールドのチャンクに分類された応答が含まれています。リアルタイムのエクスペリエンスを提供したい場合に重要です。
応答。イベントは、応答の終わりを示します。
HandleMessage（）関数のスイッチステートメントを使用して、これらのイベントにスクリプトに応答する方法を指定できます。

テキストの例の完全なコードはこちらから入手できます。

ws.on(<event>, <function>);</function></event>

リアルタイムAPIを使用して音声を送信および受信します

前の例は、テキストデータの処理方法を示しました。ただし、リアルタイムAPIへの真の関心は、リアルタイムで返信する音声アシスタントを作成することです。

オーディオデータの処理は、テキストデータを処理するよりもわずかに複雑です。この記事の主な主題から私たちをそらすため、オーディオがどのように機能するかに固有の詳細をスキップします。

最初に、2つのパッケージをインストールします：

// Add inside the main() function of index.js after creating ws
async function handleOpen() {
  console.log("Connection is opened");
}
ws.on("open", handleOpen);

npm init -y && touch index.js

node-record-lpcm16レコードマイクからサウンドを記録して、音声プロンプトを送信できるようにします。スピーカーは、AI音声応答を再生するために使用されます。
また、ノードライブラリがマイクとインターフェイスしてオーディオとインターフェースするために使用するオーディオ処理のコマンドラインユーティリティであるSox（Sound Exchange）をインストールする必要があります。 brew install soxを使用して、macosまたはsudo apt install soxにLinuxにインストールします。これらのパッケージをインストールした状態で、ユーザーのオーディオプロンプトを記録する関数StarTrecording（）をインポートします。主な主題からコースをあまりにも操作するので、機能を詳細に説明しません。

環境を読み込んだ後、次のコードをindex.jsファイルに追加します：

startrecording（）関数はマイクからオーディオを記録し、「Enter」が押されるのを待ちます。

次に、AIの応答を再生するために使用されるSpeaker（）を初期化することにより、Main（）関数を更新します。

それを邪魔にならないように、handleOpen（）とhandlemessage（）を実装してオーディオを処理できます。

npm install ws dotenv

handleOpen（）関数では、ユーザーのオーディオプロンプトを記録するためにStarTrecording（）関数を呼び出すだけです。また、イベントをわずかに更新する必要があります：

// Import the web socket library
const WebSocket = require("ws");
// Load the .env file into memory so the code has access to the key
const dotenv = require("dotenv");
dotenv.config();
function main() {
  // Connect to the API
  const url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-10-01";
  const ws = new WebSocket(url, {
      headers: {
          "Authorization": "Bearer " + process.env.OPENAI_API_KEY,
          "OpenAI-Beta": "realtime=v1",
      },
  });
}
main();

ここに更新されたHeandopen（）関数：

があります

handlemessage（）関数を実装するには、「Response.Audio.delta」イベントを変更してオーディオバッファーを更新し、新しいサウンドデルタを再生します：

「Response.text.done」イベントをSwitchステートメントから削除し、「Response.done」イベントを更新してスピーカーを停止します：

この例を実行するには、これらの変更をテンプレートコードに適用し、コマンドで実行します。

マイクは録音を開始します。リクエストを言って、「Enter」を押して送信できます。次に、AIの応答はスピーカーで再生されます（マイクがミュートされておらず、スピーカーがボリュームを持っていることを確認してください）。

ws.on(<event>, <function>);</function></event>

オーディオ例の完全なコードはこちらから入手できます。

関数呼び出し

// Add inside the main() function of index.js after creating ws
async function handleOpen() {
  console.log("Connection is opened");
}
ws.on("open", handleOpen);

Openai APIの優れた機能の1つは、関数呼び出しを実行する機能です。アシスタントに関数を追加でき、それらの関数のいずれかが答えを提供するのに役立つことを検出した場合、特定の関数を要求するイベントを送信します。

OpenAIドキュメントは、関数呼び出しのライフサイクルを説明する次の図を提供します。

OpenaiリアルタイムAPI：例を掲載したガイド

出典：Openai

図から、クライアントはLLMが呼び出すことができる機能の定義をクライアントに提供する必要があることがわかります。また、関数の実行はクライアント側で発生します。 AIは、関数とその引数を要求するイベントを送信します。次に、結果を送り返す責任があります。

2つの数値を追加する関数をアシスタントに権限を与えましょう。上記のオーディオ例を拡張して、この例を作成します。

利用可能な機能を指定するには、LLMにツールのリストを提供する必要があります。各ツールは、関数に関する情報を指定するJSONオブジェクトです。合計関数のツールを定義する方法は次のとおりです。

オブジェクト構造について説明しましょう：

npm init -y && touch index.js

このタイプは、関数を定義していることを指定します

この名前は、関数を識別するために使用されます。これは、LLMがどの機能を呼び出すかを伝えるために使用するものです。

パラメーターは、関数の引数を指定するために使用されます。この場合、aとb。
sumtoolおよび関数定数は、インポート後、main（）関数の前に、index.jsの上部に追加できます。

次に、Response.Createイベントを更新して、LLMにSumToolsが利用可能であることを知らせます。これは、ツールとtool_choiceフィールドを応答に追加することによって行われます。

LLMが関数を呼び出したいと判断した場合、response.function_call_arguments.done eventを排出します。

で応答する必要があります

npm install ws dotenv

関数情報を取得し、関数を呼び出します。

関数呼び出しの結果を送信

応答を要求します。

// Import the web socket library
const WebSocket = require("ws");
// Load the .env file into memory so the code has access to the key
const dotenv = require("dotenv");
dotenv.config();
function main() {
  // Connect to the API
  const url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-10-01";
  const ws = new WebSocket(url, {
      headers: {
          "Authorization": "Bearer " + process.env.OPENAI_API_KEY,
          "OpenAI-Beta": "realtime=v1",
      },
  });
}
main();

これを処理し、次のケースをhanldemessage（）関数内のスイッチステートメントに追加することで処理します。

この関数は比較的単純ですが、関数はクライアントによって実行されるため、何でもかまいません。次のセクションでは、より複雑な関数の2つの例を示します。この例の完全なコードは、こちらから入手できます。

今日のMlopsスキルを構築してください

Openaiチームは、リアルタイムAPIを紹介するデモReactアプリを提供します。ここでは、セットアップ方法を学び、どのように機能するかを探ります。これは、より複雑なアプリを構築するための素晴らしい出発点です。

彼らのアプリはこのリポジトリでホストされています。セットアップするには、次のgitコマンドを使用してクローニングから始めます。

代わりに、GitHubインターフェイスから手動でダウンロードすることもできます。

npm init -y && touch index.js

lt＆lt; openai_api_key＆gt; Openai APIキー付き

npm install ws dotenv

リレーサーバーは、フロントエンドとOpenaI APIの間の仲介者として使用されます。

// Import the web socket library
const WebSocket = require("ws");
// Load the .env file into memory so the code has access to the key
const dotenv = require("dotenv");
dotenv.config();
function main() {
  // Connect to the API
  const url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview-2024-10-01";
  const ws = new WebSocket(url, {
      headers: {
          "Authorization": "Bearer " + process.env.OPENAI_API_KEY,
          "OpenAI-Beta": "realtime=v1",
      },
  });
}
main();

OpenaiリアルタイムAPI：例を掲載したガイドロードが終了した後、アプリケーションが実行されている状態でブラウザにタブが開きます。

アプリを使用して

アプリの使用を開始する前に、コンピューターがミュート上にないことを確認し、マイクにアプリケーションにアクセスできるようにしてください。

ws.on(<event>, <function>);</function></event>

// Add inside the main() function of index.js after creating ws
async function handleOpen() {
  console.log("Connection is opened");
}
ws.on("open", handleOpen);

OpenaiリアルタイムAPI：例を掲載したガイド

それを使用するには、ボタンをリリースせずに押して話します。ボタンがリリースされるとメッセージが送信されます。

アプリケーションには、ボタンを押す必要のないVAD（音声アクティビティ検出）モードもあります。このモードでは、アプリケーションは継続的に聞き、アシスタントと積極的に会話することができます。それを使用するには、「vad」ボタンを押して話します。

OpenaiリアルタイムAPI：例を掲載したガイド

関数

学んだように、リアルタイムAPIは、AIが特定の関数を実行できるようにする機能を提供します。このデモンストレーションには、2つの機能が紹介されています。1つは、特定の場所での天気予報について問い合わせるための1つ、もう1つはアシスタントをパーソナライズするためのメモリアイテムを追加するためです。

「ニューヨークの明日の天気はどうですか？」などの質問をすることで、これらの機能を体験してください。そして、「私の好きな色は青」のような好みを述べています。アシスタントはこれらのクエリに対する口頭での応答を提供し、情報もアプリケーションの右側に表示されます。

OpenaiリアルタイムAPI：例を掲載したガイド

このセクションでは、アプリケーションの実装の詳細の一部をカバーするため、Reactの高レベルの理解が続く必要があります。

APIとの統合は、このuseefect（）呼び出しで定義されています。この使用effect（）内のコードは、コンソールページが最初にレンダリングされたときに実行されます。 node.jsスクリプトと同様に、APIイベントへの応答方法の概要を説明します。主な違いは、RealtimeClientクライアントラッパーの使用です。

npm init -y && touch index.js

realtimeclient.addtool（）関数は、ツールを定義するために使用されます。 2つのパラメーターが必要です

ツール定義jsonオブジェクト。

実行される関数

このアプローチは、クライアントがイベントを処理し、機能の呼び出しを自動化するために既に装備されているため、ツールの統合を簡素化します。メモリツールはここで定義されていますが、Weather Toolの定義はここで定義されています。たとえば、
以前に定義された合計ツールを追加するには、次のことを行うことができます。
```
npm init -y && touch index.js
```
アプリケーションはTypeScriptを利用しているため、関数定義内のタイプの指定が必要であることに注意してください。イベントを聴く

イベントを聞くには、realtimeclient.on（）関数が使用されます。 2つのパラメーターを受け入れます：

イベントの名前。
2. このアプローチは、以前に使用されたWebSocket.ON（）関数に似ています。ただし、異なるイベントセットを実装します。 GitHubページには、サポートされているイベントのリストが提供されていますこの特定の例では、次のイベントが使用されます
ここでのイベントイベントは、すべてのイベントのログを保持するために使用されます。
ここでのエラーイベントは、デバッグのためにエラーをコンソールにログに記録します。

会話。途切れたイベントは、変換が中断されたときにリクエストをキャンセルするために使用されます。
最後に、Conversation.updatedイベントは、APIから新しいチャックが入ったときに新しいオーディオをオーディオストリームに追加するために使用されます。
- 結論
Openaiモデルの蒸留：例を備えたガイド
gpt-4oビジョン微調整：例を備えたガイド

以上がOpenaiリアルタイムAPI：例を掲載したガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ChatGPTが使えない！原因とすぐ試せる対処法を解説【2025年最新】May 14, 2025 am 05:04 AM

ChatGptはアクセスできませんか？この記事では、さまざまな実用的なソリューションを提供しています！多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。以下の手順に従って、トラブルシューティングしてください。ステップ1：OpenAIの公式ステータスを確認してください OpenAIステータスページ（status.openai.com）にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

ASIのリスクを計算することは、人間の心から始まりますMay 14, 2025 am 05:02 AM

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。「私の評価では、「コンプトン定数」、競争が

ChatGPTで作詞・作曲する方法とおすすめツールをわかりやすく解説May 14, 2025 am 05:01 AM

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。音楽分野でのAIの無限の可能性を一緒に探りましょう！ Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChatGPT-4とは？できることや料金、GPT-3.5との違いを徹底解説！May 14, 2025 am 05:00 AM

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTのアプリの使い方を解説！日本語対応で音声会話機能もMay 14, 2025 am 04:59 AM

ChatGPTアプリ：AIアシスタントで創造性を解き放つ！初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

ChatGPTの中文版の利用方法は？登録手順や料金について解説May 14, 2025 am 04:56 AM

Chatgpt中国語版：中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか？この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

5 AIエージェントの神話あなたは今信じるのをやめる必要がありますMay 14, 2025 am 04:54 AM

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTで複数アカウントを作成・管理する不法をわかりやすく解説May 14, 2025 am 04:50 AM

ChatGPTを活用した効率的な複数アカウント管理術｜ビジネスとプライベートの使い分けも徹底解説！様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI

See all articles