ホームページ > 記事 > テクノロジー周辺機器 > GPT-4o と GPT-4 Turbo を 1 つの記事で読む
皆さんこんにちは、私はルーガです。今日は人工知能 (AI) の生態分野に関連するテクノロジー、つまり GPT-4o モデルについて話します。
2024 年 5 月 13 日、OpenAI は最も先進的で最先端のモデル GPT-4o を革新的に発売しました。これは、人工知能チャットボットと大規模言語モデルの分野における大きな進歩を示す動きです。人工知能機能の新時代の到来を告げる GPT-4o は、速度と多用途性の両方で前世代の GPT-4 を上回る大幅なパフォーマンスの向上を誇ります。
この画期的な進歩により、以前のバージョンでしばしば悩まされていた遅延の問題が解決され、シームレスで応答性の高いユーザー エクスペリエンスが保証されます。
2024 年 5 月 13 日、OpenAI は最新かつ最先端の人工知能モデル GPT-4o をリリースしました。ここで、「o」は「omni」を表し、「すべて」または「すべて」を意味します。 「普遍的」。このモデルは、GPT-4 Turbo に基づく新世代の大規模言語モデルです。 GPT-4oは、従来モデルに比べ、出力速度、回答品質、対応言語が大幅に向上し、入力データの処理形式も革新的になりました。
GPT-4o+ モデルの最も注目すべき革新は、異なる種類の入力データを処理するために独立したニューラル ネットワークを使用する以前のモデルの慣行を放棄し、代わりに単一の統合ニューラル ネットワークを使用してすべての入力を処理することです。この革新的な設計により、GPT-4o+ には前例のないマルチモーダル フュージョン機能が提供されます。 マルチモーダル フュージョンとは、より包括的で正確な結果を得るために、さまざまな種類の入力データ (画像、テキスト、オーディオなど) を統合して処理することを指します。以前のモデルでは、マルチモーダル データを処理するときにさまざまなネットワーク構造を設計する必要があり、多くのコンピューティング リソースと時間を消費していました。 GPT-4o+ は統合ニューラル ネットワークを使用することで、さまざまな種類の入力データのシームレスな接続を実現し、従来の言語モデルは通常、プレーン テキスト入力のみを処理でき、音声や画像などの非テキスト データを処理できません。ただし、GPT-4o は、背景ノイズ、複数の音源、音声入力内の感情的な色などの非テキスト信号を同時に検出および解析でき、これらのマルチモーダル情報を意味理解および生成プロセスに融合して、より豊かで、よりコンテキストに即した出力を生成します。
GPT-4o+ は、マルチモーダル入力の処理に加えて、多言語出力を生成する際にも優れた優れた出力機能を発揮します。 GPT-4o+ は、英語などの主流言語で高品質で文法的に正確で簡潔な表現を出力するだけでなく、英語以外の言語のシナリオでも同じレベルの出力を維持できます。これにより、英語ユーザーとその他の言語ユーザーの両方が GPT-4o+ の優れた自然言語生成機能を活用できるようになります。
一般に、GPT-4o+ の最大のハイライトは、単一モダリティの限界を突破し、クロスモーダルの包括的な理解と生成機能を実現することです。革新的なニューラル ネットワーク アーキテクチャとトレーニング メカニズムの助けを借りて、GPT-4o+ は複数の感覚チャネルから情報を取得するだけでなく、生成中にそれを統合して、より状況に応じた、よりパーソナライズされた応答を生成することもできます。
GPT-4o と GPT-4 Turbo のパフォーマンス
1. 推論速度
GPT-4o と GPT-4 Turbo の遅延の比較
2. スループット
それにもかかわらず、GPT-4o はまだ最速のモデルではありません。 Groq でホストされている Llama を例にとると、GPT-4o をはるかに上回る 1 秒あたり 280 トークンを生成できます。ただし、GPT-4o の利点は速度だけではありません。その高度な機能と推論機能により、リアルタイム AI アプリケーションで際立っています。 GPT-4o の単一モデル アーキテクチャと最適化アルゴリズムは、コンピューティング効率を向上させるだけでなく、応答時間を大幅に短縮し、インタラクティブなエクスペリエンスに独自の利点をもたらします。
GPT-4o と GPT-4 Turbo のスループットの比較
一般的に、GPT-4o と GPT-4 Turbo が異なる種類のタスクを処理する場合、アーキテクチャとモードの違いにより、融合機能の違いにより、パフォーマンスに大きな違いが生じます。ここでは主に、データ抽出、分類、推論という 3 つの代表的なタスク タイプから、両者の違いを分析します。
テキスト データ抽出タスクでは、GPT-4 Turbo は強力な自然言語理解機能を利用して優れたパフォーマンスを実現します。ただし、画像やテーブルなどの非構造化データを含むシーンに遭遇すると、その機能が多少制限されます。
対照的に、GPT-4o は、構造化テキストであっても、画像や PDF などの非構造化データであっても、さまざまなモダリティのデータをシームレスに統合し、必要な情報を効率的に識別して抽出できます。この利点により、GPT-4o は複雑な混合データを処理する際の競争力が高まります。
ここでは、ある企業の契約シナリオを例として取り上げます。データセットには、企業と顧客間のマスターサービス契約 (MSA) が含まれています。契約書の長さはさまざまで、5 ページ程度の短いものもあれば、50 ページを超えるものもあります。
今回の評価では、契約タイトル、顧客名、サプライヤー名、解除条項の内容、不可抗力の有無など、計12項目を抽出します。 10件の契約に関する実際のデータ収集を通じて、12のカスタム評価指標を使用して設定されました。これらのメトリクスは、モデルによって生成された JSON 内の各パラメーターの LLM 出力と実際のデータを比較するために使用されます。続いて、GPT-4 Turbo と GPT-4o をテストし、評価レポートの結果を以下に示します:
各プロンプトに対応する 12 の指標の評価結果
上記の比較結果で、次のように結論付けることができます。これら 12 フィールドのうち、GPT-4o は 6 フィールドで GPT-4 Turbo よりも優れたパフォーマンスを示し、5 フィールドで同じ結果が得られ、1 フィールドでわずかにパフォーマンスが劣ります。
絶対的な観点から見ると、GPT-4 と GPT-4o は、ほとんどの分野のデータの 60 ~ 80% しか正しく識別できません。どちらのモデルも、高精度が必要な複雑なデータ抽出タスクでは標準以下のパフォーマンスを発揮しました。ショットプロンプトやチェーン思考プロンプトなどの高度なプロンプトテクニックを使用すると、より良い結果を達成できます。
さらに、GPT-4o は TTFT (最初のトークンまでの時間) において GPT-4 Turbo より 50 ~ 80% 高速であり、直接比較すると GPT-4o に利点があります。最終的な結論は、GPT-4o は、高品質で低遅延であるため、GPT-4 Turbo よりも優れているということです。
分類タスクでは、多くの場合、テキストや画像などのマルチモーダル情報から特徴を抽出し、意味レベルの理解と判断を実行する必要があります。現時点では、GPT-4 Turbo は単一のテキスト モダリティのみの処理に制限されているため、その分類機能は比較的制限されています。
GPT-4o は、マルチモーダル情報を融合して、より包括的な意味表現を形成できるため、テキスト分類、画像分類、感情分析などの分野、特にいくつかの困難なクロスモーダル タスクで優れた分類機能を発揮します。動的分類シナリオ。
ヒントでは、顧客のチケットがいつクローズされるかについて明確な手順を提供し、最も困難なケースの解決に役立ついくつかの例を追加しています。
モデルの出力が 100 個のラベル付きテスト ケースのグラウンド トゥルース データと一致するかどうかをテストする評価を実行することで、関連する結果が次のとおりです:
分類分析評価リファレンス
GPT-4o は、間違いなく圧倒的な性的優位性を実証しました。さまざまな複雑なタスクに関する一連のテストと比較を通じて、GPT-4o が全体的な精度において他の競合モデルをはるかに上回り、多くのアプリケーション分野で最初の選択肢となっていることがわかります。
ただし、一般的なソリューションとして GPT-4o に傾いている一方で、最適な AI モデルの選択は一夜にしての意思決定プロセスではないことにも留意する必要があります。結局のところ、AI モデルのパフォーマンスは、多くの場合、特定のアプリケーション シナリオと、精度、再現率、時間効率などのさまざまな指標のトレードオフの好みに依存します。
推論は人工知能システムの高次の認知能力であり、モデルが与えられた前提条件から合理的な結論を導き出す必要があります。これは、論理的推論や質疑応答の推論などのタスクにとって非常に重要です。
GPT-4 Turbo はテキスト推論タスクではうまく機能しましたが、マルチモーダル情報の融合が必要な状況に遭遇した場合、その機能は制限されます。
GPT-4o にはこの制限はありません。テキスト、画像、音声などの複数のモダリティからの意味情報を自由に統合し、これに基づいてより複雑な論理的推論、因果的推論、帰納的推論を実行できるため、人工知能システムにより「人間化された」推論と判断能力が与えられます。 。
上記のシナリオに基づいて、推論レベルでの 2 つの比較を見てみましょう: 具体的なリファレンスは次のとおりです:
16 の推論タスクの評価リファレンス
のテスト例によると。 GPT-4o モデルは、次の推論タスクでパフォーマンスがますます向上していることが観察できます。
GPT-4o は特定の推論タスクでは改善されていますが、単語操作、パターン認識、類推推論、空間推論などのタスクでは依然として課題に直面しています。将来の改善と最適化により、これらの領域におけるモデルのパフォーマンスがさらに向上する可能性があります。
要約すると、1 分あたり最大 1,000 万トークンのレート制限に基づく GPT-4o は、GPT-4 の完全に 5 倍です。このエキサイティングなパフォーマンス指標は、多くの集中的なコンピューティング シナリオ、特にリアルタイム ビデオ分析、インテリジェントな音声対話などの分野で人工知能の普及を加速することは間違いなく、GPT-4o の高い同時応答能力は比類のない利点を示します。
GPT-4o の最も輝かしいイノベーションは、テキスト、画像、音声、その他のマルチモーダル入出力をシームレスに統合する革新的なデザインであることは間違いありません。 GPT-4o は、単一のニューラル ネットワークを通じて各モダリティからのデータを直接統合して処理することで、以前のモデル間の切り替えによる断片化したエクスペリエンスを根本的に解決し、統合された AI アプリケーションを構築する道を開きます。
モーダル融合を実現した後、GPT-4o はアプリケーションシナリオにおいてこれまでにない幅広い展望を持つことになります。コンピューター ビジョン テクノロジーを組み合わせてインテリジェントな画像分析ツールを作成する場合でも、音声認識フレームワークとシームレスに統合してマルチモーダルな仮想アシスタントを作成する場合でも、テキストと画像のデュアル モダリティに基づいて忠実度の高いグラフィック広告を生成する場合でも、すべては独立したサブモデルを統合し、GPT-4o の優れたインテリジェンスによって推進される完了したタスクには、新しい統合された効率的なソリューションが含まれます。
参考:
以上がGPT-4o と GPT-4 Turbo を 1 つの記事で読むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。