これを想像してみてください:それは1960年代であり、3Mの科学者であるスペンサーシルバーは、予想どおりに付着しない弱い接着剤を発明します。失敗のようです。しかし、数年後、彼の同僚のアートフライは、そのために斬新な用途を見つけています。これは、文房具に革命を起こした10億ドルの製品であるポストイットノートを作成しています。このストーリーは、AIの大規模な言語モデル(LLMS)の旅を反映しています。これらのモデルは、テキスト生成能力では印象的ですが、幻覚や限られたコンテキストウィンドウなど、大きな制限があります。一見すると、彼らは欠陥があるように見えるかもしれません。しかし、増強を通じて、それらははるかに強力なツールに進化します。そのようなアプローチの1つは、検索拡張生成(RAG)です。この記事では、RAGシステムのパフォーマンスを測定するのに役立つさまざまな評価メトリックを検討します。 目次
ラグの紹介- ラグ評価:「見栄えが良い」
- 検索パフォーマンスを評価するためのドライバーメトリック
- ドライバーメトリックス
- 結論
- ragsの紹介
- テキスト生成中に外部情報を導入することにより、ragはLLMSを強化します。これには、検索、増強、および生成の3つの重要なステップが含まれます。まず、検索は、多くの場合、埋め込み(単語またはドキュメントのベクトル表現)および類似性検索を使用して、データベースから関連情報を抽出します。増強では、この取得されたデータがLLMに供給され、より深いコンテキストを提供します。最後に、生成には濃縮された入力を使用して、より正確でコンテキスト認識した出力を生成することが含まれます。
ラグ評価:「私には見栄えが良い」を超えて移動
ソフトウェア開発では、「見栄えの良い」(LGTM)は、私たち全員が使用している罪を犯している、非公式ではあるが、一般的に使用されていますが、一般的に使用されています。ただし、ぼろきれまたはAIシステムのパフォーマンスを理解するには、より厳密なアプローチが必要です。評価は、目標メトリック、ドライバーメトリック、および運用メトリックの3つのレベルを中心に構築する必要があります。
- 目標メトリックは、投資収益率(ROI)やユーザーの満足度など、プロジェクトの目標に結び付けられた高レベルの指標です。たとえば、改善されたユーザー保持は、検索エンジンの目標メトリックになる可能性があります。
- ドライバーメトリックは、検索の関連性や生成の精度など、目標メトリックに直接影響する具体的で頻繁な測定値です。 運用メトリック レイテンシやアップタイムなど、システムが効率的に機能していることを確認してください。
- RAG(検索された生成)のようなシステムでは、ドライバーのメトリックが検索と生成のパフォーマンスを評価するため重要です。これらの2つの要因は、ユーザーの満足度やシステムの有効性など、全体的な目標に大きく影響します。したがって、この記事では、ドライバーのメトリックにもっと焦点を当てます。 検索パフォーマンスを評価するためのドライバーメトリック
検索は、関連するコンテキストをLLMSに提供する上で重要な役割を果たします。 RAGシステムの検索パフォーマンスを評価するために、Precision、Recall、MRR、NDCGなどのいくつかのドライバーメトリックが使用されます。
精度測定上の結果に関連するドキュメントの数が表示されます。
Recall
1。検索エンジン 2。カスタマーサポート
カスタマーサポートでは、Rag-Powered Chatbotsはコンテキストで正確な応答を提供します。事前にプログラムされた応答のみに依存する代わりに、これらのチャットボットは、FAQ、ドキュメント、および過去の相互作用から関連する知識を動的に取得して、正確でパーソナライズされた回答を提供します。たとえば、eコマースチャットボットは、RAGを使用して注文の詳細を取得したり、手順のトラブルシューティングを提案したり、ユーザーのクエリ履歴に基づいて関連製品を推奨したりできます。
コンテンツの推奨システムでは、RAGは、生成された提案がユーザーの好みとニーズに合わせて保証します。たとえば、ストリーミングプラットフォームを使用して、ユーザーが好きなものだけでなく感情的なエンゲージメントにも基づいてコンテンツを推奨し、保持とユーザーの満足度を高めます。
4。ヘルスケア ヘルスケアアプリケーションでは、RAGは、関連する医学文献、患者の歴史、診断提案をリアルタイムで取得することにより、医師を支援します。たとえば、AIを搭載した臨床助手は、RAGを使用して最新の調査研究を引き出し、同様の文書化された症例を持つ患者の症状を相互参照して、医師が情報に基づいた治療の決定をより速くするのを助けます。
5。法的調査
eラーニングプラットフォームでは、RAGはパーソナライズされた学習資料を提供し、キュレーションされた知識ベースに基づいて学生の質問に動的に回答します。たとえば、AIチューターは、教科書、過去の試験論文、およびオンラインリソースから説明を取得して、学生の質問に対する正確でカスタマイズされた回答を生成し、学習をよりインタラクティブで適応的にします。
RAGシステムの実世界のアプリケーション検索エンジンでは、最適化された検索パイプラインが関連性とユーザーの満足度を高めます。たとえば、RAGは、応答を生成する前に、広大なコーパスから最も関連性の高い情報を取得することにより、検索エンジンがより正確な回答を提供するのに役立ちます。これにより、ユーザーは一般的な情報や時代遅れの情報ではなく、ファクトベースのコンテキスト的に正確な検索結果を取得できます。
AIの急速に進化する風景では、本当に重要なことを測定することが、潜在的なパフォーマンスをパフォーマンスに変えるための鍵です。適切なツールとテクニックを使用して、世界で真の影響を与えるAIシステムを作成できます。
以上がRAGパフォーマンスの測定方法:ドライバーのメトリックとツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6
ビジュアル Web 開発ツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
