MicrosoftのTNT-LLM:分類学の生成とテキスト分類の革命
Microsoftは、速度と精度の両方で従来の方法を上回る、分類法の作成とテキスト分類を自動化する画期的なシステムであるTNT-LLMを発表しました。 この革新的なアプローチは、大規模な言語モデル(LLM)の力を活用して、分類剤と分類器の生成を合理化および拡大し、手動介入を最小限に抑えます。 これは、動的で多様なテキストデータの管理が最重要であるBing Copilotのようなアプリケーションにとって特に有益です。 この記事では、効率的なニュース記事クラスタリングのためにGPT-4OとLanggraphを使用したTNT-LLMの実装を示しています。 GPT-4OとLanggraphの詳細については、これらのリソースを参照してください。
Openaiのgpt-4o?
とは何ですか- GPT-4O APIチュートリアル:OpenAIのAPIを始めましょう
- langgraphチュートリアル:ランググラフとは何ですか?
- 元のTNT-LLM研究論文「TNT-LLM:大規模な言語モデルを使用したテキストマイニング」は、システムに関する包括的な詳細を提供します。
- Tnt-llm を理解します
この初期フェーズでは、テキストドキュメントのサンプルと特定の指示を使用します(たとえば、「ニュース記事をクラスターするために分類法を生成する」)。 LLMは各ドキュメントを要約し、重要な情報を抽出します。 反復改良を通じて、LLMは分類法を構築、修正、および改良し、効果的なニュース記事分類のためのラベルの構造化された階層と説明をもたらします。
出典:wan et al。
フェーズ2:テキスト分類
出典:wan et al。
TNT-LLMの適応性のある性質により、意図の検出やトピックの分類など、さまざまなテキスト分類タスクに適しています。 TNT-llmの利点
tnt-llmは、大規模なテキストマイニングと分類に大きな利点を提供します:- 自動化された分類版生成:生のテキストから詳細で解釈可能な分類法の作成を自動化し、広範な手動努力とドメインの専門知識の必要性を排除します。
- スケーラブルな分類:大きなデータセットとリアルタイム分類を効率的に処理する軽量モデルを使用して、スケーラブルなテキスト分類を有効にします。
- 費用対効果:
高品質の出力: 繰り返しの分類学的生成により、高品質、関連性、正確な分類が保証されます。
- 最小限の人間の介入:手動入力を減らし、潜在的なバイアスと矛盾を最小限に抑えます。
- 柔軟性:さまざまなテキスト分類タスクとドメインに適応し、さまざまなLLMとの統合、埋め込み方法、および分類器をサポートします。 TNT-llm の実装
- 段階的な実装ガイドが次のとおりです インストール:
APIキーとモデル名の環境変数を設定します:
コアコンセプト:
pip install langgraph langchain langchain_openaiドキュメント:
クラスを使用して構造化された生のテキストデータ(記事、チャットログ)。
export AZURE_OPENAI_API_KEY='your_api_key_here' export AZURE_OPENAI_MODEL='your_deployment_name_here' export AZURE_OPENAI_ENDPOINT='deployment_endpoint'分類法:
クラスによって管理されている分類された意図またはトピックのクラスター。
単純なTNT-LLMアプリケーションの構築:-
次のセクションでは、コードスニペットを使用して重要なプロセスを説明する実装手順を詳しく説明します。 元のコードの長さにより、ここでの完全な複製は実用的ではありません。 ただし、以下はプロセスの構造化された概要を提供します。
Doc
- ステップ0:グラフ状態クラスを定義し、データセットをロードし、GPT-4Oを初期化します。これには、データ構造の定義とニュース記事データセットのロードが含まれます。 GPT-4Oモデルは、パイプライン全体で使用するために初期化されます。
TaxonomyGenerationState
ステップ1:ドキュメントを要約する:
ステップ2:ミニバッチの作成:
要約ドキュメントは、並列処理のためにミニバッチに分割されます。
-
ステップ3:初期分類法を生成:最初のミニバッチから初期分類法が生成されます。
-
ステップ4:分類法の更新:後続のミニバッチが処理されると、分類法が繰り返し更新されます。
ステップ5:レビュー分類法:最終的な分類法の正確性と関連性についてレビューされています。
-
ステップ6:Tnt-llmパイプラインをStategraphで調整します:a Stategraphは、さまざまなステップの実行を調整します。
ステップ7:TNT-llmのニュース記事分類法のクラスタリングと表示
結論
TNT-LLMは、大規模なテキストマイニングと分類のための強力で効率的なソリューションを提供します。その自動化機能は、構造化されていないテキストデータの分析に必要な時間とリソースを大幅に削減し、さまざまなドメインでデータ駆動型の意思決定を可能にします。 業界全体のさらなる開発と適用の可能性は実質的です。 さらなるLLMアプリケーション開発に興味がある人には、「Langchainを使用したLLMアプリケーションの開発」に関するコースが推奨されます。
以上がGPT-4OおよびLanggraphチュートリアル:TNT-LLMアプリケーションを構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
