ホームページ >テクノロジー周辺機器 >AI >Google Geminiとは何ですか? GoogleのChatGptのライバルについて知る必要があるすべて
Googleは最近、新しい生成AIモデルであるGeminiをリリースしました。 Google Researchのメンバーを含むGoogleのさまざまなチームによる共同の取り組みから生じます。 Googleがこれまでに開発した最も有能で汎用的なAIと呼んでいるモデルは、マルチモーダルになるように設計されています。これは、ジェミニがテキスト、オーディオ、画像、ビデオ、コードなどのさまざまなデータ型を理解できることを意味します。 この記事の残りについては、説明します。
geminiとは?
geminiのバージョンは何ですか?
最近まで、マルチモーダルモデルを開発するための標準的な手順は、さまざまなモダリティの個々のコンポーネントをトレーニングし、それらをつなぎ合わせて機能の一部を模倣して構成されていました。このようなモデルは、画像の説明などの特定のタスクの実行に時々優れていますが、より洗練された複雑な推論に問題があります。
ジェミニは、ネイティブにマルチモーダルになるように設計されています。したがって、それは最初からいくつかのモダリティで事前に訓練されていました。その有効性をさらに改善するために、Googleは追加のマルチモーダルデータで微調整しました。 GoogleおよびAlphabetのCEOであるSundar PichaiとGoogle DeepmindのCEO兼共同設立であるDemis Hassabisによると、Geminiは、ゼロからの幅広い入力についての理解と推論において、既存のマルチモーダルモデルよりもかなり能力があります。彼らはまた、ジェミニの能力は「ほぼすべてのドメインの最先端」であると述べています。Google Geminiキー機能
Geminiモデルの主要な機能には次のものが含まれます
1。テキスト、画像、オーディオ、およびその他の理解を理解します
マルチモーダルAIは、より高いパフォーマンスを実現するために異なるデータ型を複数のアルゴリズムと統合する新しいAIパラダイムを獲得する新しいAIパラダイムです。 Geminiはこのパラダイムを活用します。つまり、さまざまなデータ型とうまく統合されています。画像、オーディオ、テキスト、その他のデータ型を入力して、より自然なAIの相互作用をもたらすことができます。 GeminiはGoogleのTPUV5チップを活用しているため、GPT-4よりも5倍強力になっていると伝えられています。処理をより高速にすると、Geminiは複雑なタスクに比較的簡単に取り組むことができ、複数のリクエストを同時に処理できます。
4。 Advanced Coding 5。責任と安全 Geminiのマルチモーダル機能を説明するために、GoogleのAI原則とポリシーに新しい保護が追加されました。 Googleは、「Geminiには、バイアスや毒性を含め、これまでのGoogle AIモデルの最も包括的な安全性評価があります。」彼らはまた、「サイバー攻撃、説得、自律性などの潜在的なリスク分野の新しい研究を実施し、Geminiの展開に先立って重要な安全性の問題を特定するために、Google Researchのクラス最高の敵対的テスト技術を適用した」と述べました。
ジェミニの最初のバージョン、当然のことながらジェミニ1.0という名前は、3つの異なるサイズでリリースされました。
Android 14を備えた新しいシステム機能、Android Developersは、Pixel 8 Pro Devicesから始まるAndroid開発者を介して、デバイス上のタスクに最も効率的なモデルであるGemini Nanoで構築できます。
に探索されました
Geminiの紹介ブログ投稿で、GoogleはGemini Ultraが90.0%のスコアで大規模なマルチタスク言語理解(MMLU)で人間の専門家を上回る史上初のモデルであると主張しています。 MMLUには、問題を解決する能力と世界の一般的な理解を評価するために、数学、物理学、歴史、法律、医学、倫理を含む57の異なる主題が組み込まれていることに注意してください。
調査結果は、ジェミニがテキストやコーディングを含む幅広いベンチマークで最先端のパフォーマンスを上回っていることを明らかにしています。 [ソース] ジェミニウルトラモデルは、59.4%のスコアで、新しい大規模なマルチディシプラインマルチモーダル理解(MMMU)ベンチマークで最先端を達成しました。この評価は、意図的な推論を必要とするさまざまなドメインにわたるマルチモーダルタスクで構成されています。
調査結果は、ジェミニが幅広いマルチモーダルベンチマークで最先端のパフォーマンスを上回っていることを明らかにしています。 [ソース] Geminiによって設定されたベンチマークは、モデルの生来のマルチモダリティを示し、より洗練された推論の能力の初期の証拠を示しています。
gemini vs. gpt-4
です。
の使用ケース GoogleのGeminiモデルは、テキスト、オーディオ、画像、ビデオの理解など、いくつかのモダリティでさまざまなタスクを実行できます。
Geminiのマルチモーダルの性質により、さまざまなモダリティを組み合わせて出力を理解および生成することも可能です。
Geminiモデルは、さまざまなデータ型からコンテンツを要約できます。 Gemini:抽象的なテキスト要約における文レベルの要約スタイルを制御するタイトルの研究論文によると、Geminiモデルは「書き換えと発電機をそれぞれ統合して、それぞれテクニックを書き直し、抽象化するテクニックを模倣します。」
テキスト生成
画像とビデオ処理
Googleのマルチモーダル大手言語モデル(LLMS)の新しいセット、GeminiはLamdaとPalm 2の後継者です。ジェミニは、最も人気のあるプログラミング言語の多くで高品質のコードを生成することもできます。
そして、行く前に、YouTubeチャンネルを購読することを忘れないでください。 Geminiでマルチモーダルアプリを構築する方法に関するチュートリアルなど、最も関連性の高いトレンドのトピックに優れたコンテンツがあります。 2。信頼性、スケーラビリティ、および効率
ジェミニは、テキストとコードの膨大なデータセットで訓練されました。これにより、モデルが最新の情報にアクセスし、クエリに対して正確で信頼できる応答を提供できるようになります。 Googleによると、このモデルは、さまざまなインテリジェンステスト(MMLUベンチマークなど)でOpenaiのGPT-4および「専門家レベル」の人間を上回ります。
gemini 1.0は、Python、Java、C、Goなど、最も広く使用されているプログラミング言語で高品質のコードを理解、説明、生成できます。これにより、グローバルにコーディングするための主要な基礎モデルの1つになります。
このモデルは、コーディングタスクのパフォーマンスを評価するための高度に想定されている業界標準であるHumanvalを含む、いくつかのコーディングベンチマークにも優れています。また、Webからの情報の代わりに著者生成コードを活用するGoogleの内部的な保有データセットでもうまく機能しました。
Googleは、LamdaとPalm 2の後継者であるGeminiは、「これまでで最も柔軟なモデルであり、データセンターからモバイルデバイスまであらゆるものを効率的に実行できる」と言います。彼らはまた、ジェミニの最先端の機能により、開発者とビジネスクライアントがAIを構築および拡大する方法を改善すると考えています。
2023年12月13日以来、開発者とエンタープライズの顧客は、Google AI StudioまたはGoogle Cloud Vertex AIのGeminiのAPIを介してGemini Proにアクセスすることができました。
Google AI Studioは、開発者が生成モデルをプロトタイプに使用し、APIキーを使用してアプリケーションを簡単に起動できるように使用できる自由に利用可能なブラウザベースのIDEです。一方、Google Cloud Vertexは、生成AIの構築と使用に必要なすべてのツールを提供する完全に管理されたAIプラットフォームです。 Googleによると、「Vertex AIは、エンタープライズセキュリティ、安全性、プライバシー、データガバナンス、コンプライアンスのための追加のGoogleクラウド機能からの完全なデータ制御と利点を備えたGeminiのカスタマイズを許可します。」ジェミニがテキストタスクでどのように実行したかは次のとおりです
追加の拡張機能で両方のモデルを増強することもできますが、執筆時点では、GoogleのGeminiモデルははるかに制限されています。
たとえば、
フライト、マップ、YouTube、Geminiとのワークスペースアプリケーションの範囲などのGoogleツールを利用することができます。対照的に、OpenAIのGPT-4で利用できるプラグインと拡張機能のはるかに大きく選択されており、そのほとんどはサードパーティによって作成されています。 GPT-4では、オンザフライ画像作成も可能です。 Geminiはそのような機能が可能になるように設計されていますが、執筆時点ではできません。
一方、ジェミニの応答時間はGPT-4の応答時間よりも速く、プラットフォーム上のユーザーの量が膨大な量のために遅くなったり、完全に中断することがあります。
Gemini テキスト要約
Geminiは、ユーザープロンプトに応じてテキストベースの入力を生成できます。このテキストは、Q&Aスタイルのチャットボットインターフェイスによっても駆動できます。したがって、geminiを展開して顧客の問い合わせを処理し、自然でありながら魅力的な方法で支援を提供します。これにより、人間のエージェントの責任を解放して、複雑なタスクにもっと適用し、顧客満足度を向上させることができます。
また、小説を共同執筆したり、さまざまなスタイルで詩を書いたり、映画や演劇のスクリプトを生成するなど、創造的な執筆にも使用される場合があります。これにより、創造的な作家の生産性が大幅に向上し、作家のブロックによって引き起こされる緊張を減らすことができます。
テキストの翻訳とオーディオ処理ジェミニは画像を理解して解釈することができ、画像のキャプションと視覚的なQ&Aユースケースに適しています。モデルは、外部OCRツールを必要とせずに、図、図、チャートなどの複雑なビジュアルを解析することもできます。
コード分析と生成結論
次のリソースで学習を続けます。
以上がGoogle Geminiとは何ですか? GoogleのChatGptのライバルについて知る必要があるすべての詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。