「私は当初、コーパスがすでに不足していて、大規模なモデルをトレーニングするためのコーパスがないと思っていました。実際にはそうではありません。データは枯渇するには程遠いです。」 10年以上ビッグデータ分野の起業家として、「Starring Technology」の創設者兼最高経営責任者(CEO)であるSun Yuanhao氏は、「大規模モデルは人間のインターネットデータを使い果たしている」という声明に同意しません。 彼の観察によると、さまざまな業界の企業内のデータはまだ完全に活用されていません。インターネット上の人間のデータのストックは、現在の大規模モデルが利用できる量よりもはるかに多いです。さまざまな業界からのこれらの高品質データを使用すると、大規模なモデルで今日の標準に基づいて精度を大幅に向上させることができます。 重要な問題は、このデータをどのように効率的に開発できるかということです。 大規模モデルの時代において、コーパスの開発は新たな課題に直面しています。 Sun Yuanhao 氏は、現在、企業内のデータは多くの場合構造化されておらず、さまざまな形式であり、ほとんどが小さなファイルであると同時に、これらの専門的なデータにラベルを付けたり修正したりするには敷居が高いと述べました。これにより、ファイル システム、知識ベース システム、コーパス開発システムなどに対する新しい要件が提起されます。 たとえば、企業内でさまざまなドキュメントや PPT を処理するという大量のデータの問題に直面すると、データの多様性、つまり企業内のさまざまな種類のデータの観点から、ストレージとコンピューティング リソースの要件が高くなります。メディア記事、政府文書、設計文書などのドキュメントはすべて、トレーニング モデルを使用して認識および解析する必要があります。そのためには、強力なマルチモーダル データ処理機能を備えたデータ処理ツールが必要です。 データのセキュリティとプライバシーの問題に関しては、トレーニングと推論のプロセス中に企業内の内部情報の機密性とセキュリティを確保する方法も、ツールのセキュリティ管理に関する専門的なデータの注釈に関する新しい要件を提起します。企業内の内部データの処理では、生体分子の式や専門的な財務用語などの専門分野でのアノテーションが行われることが多く、処理にはより専門的なデータ アノテーションの専門家が必要です。 これらの課題に対処するために、Sun Yuanhao 氏は Staring Technology の試みのいくつかを共有しました:
1. ビッグ データ プラットフォームをアップグレードする: Transwarp Data Hub データ プラットフォームをアップグレードして、大量のドキュメントや小さなファイルなど、より多様なデータを処理できるようにします。ソースデータ管理ノードを再構築し、POSIX インターフェイスを追加することにより、ファイル システムのサポート機能とデータ ストレージ効率が向上します。 2. Python インターフェースを追加します。 Python インターフェースをデータ ハブに追加し、Python 言語をコーパス処理時のクリーニングに使用できるようにします。これは、コーパス処理の効率と柔軟性の向上に役立ちます。 3. 分散 Python エンジンの起動: コーパスのボリュームが通常数十または数百 T である状況を考慮して、大量のコーパスの処理能力と効率を向上させるために分散 Python エンジンが起動されます。 。 4. ベクトル データベースを最適化する: ベクトル データベースをアップグレードして、再現精度と分散パフォーマンスを向上させ、大規模なデータ処理と取得をより適切にサポートできるようにします。 5. ナレッジグラフを構築する: ベクトルリコールの精度の不足を補うために、ナレッジグラフを構築するための LLM ナレッジツール用の Transwarp Knowledge Studio を提供します。たとえば、機器メンテナンスのシナリオでは、機器の故障数、ゼロ調整レポートなどがナレッジ グラフにインポートされ、大規模モデルは質問に答えるときにナレッジ グラフ上で推論を実行できるため、より正確な回答が得られます。 6. コーパス開発ツールを開発する: コーパス解析、分類、クリーニング、注釈、拡張およびその他の機能を含むコーパス開発ツールを起動し、質問と回答のペアとセキュリティ テスト セットをコーパスから構築します。コーパス。これは、さまざまな種類のドキュメント、音声、ビデオを自動または半自動で処理し、大規模なモデルのトレーニングに使用できる高品質のコーパスに変換するために使用されます。 7. 大規模モデルのツールチェーンを提供する: コーパス生成からモデルトレーニング、知識ベース構築、アプリケーション開発、エージェント構築、コンピューティングのスケジューリングまでの一連のプロセスを含む、大規模モデル用の完全なツールチェーンを提供します。有力な手法。これにより、大規模なモデル アプリケーションの構築効率と管理機能が向上します。 8. AI ネイティブ アプリケーションを構築する: Wuya・Wenzhi や Wuya・Wenshu などの AI ネイティブ アプリケーションを起動して、企業内の内部情報検索とデータ分析を実現し、データ処理の効率と利便性を向上させます。 9. 複数のモデルとデータソースをサポート: オープンソースか商用かに関係なく、サードパーティのモデルと、個人の知識ベース、企業の知識ベース、財務データベース、法律および規制データベースなどの複数のデータソースをサポートします。 .、データ処理の柔軟性と適応性を向上させます。 これらに基づいて、企業はさまざまな種類の情報を直接アップロードでき、製品は迅速に分析されて企業独自の知識ベースが形成されます。しかし、Sun Yuanhao 氏は、社内でさらに多くの内部データを開発して公開するだけで終わりではなく、コーパスの品質を向上させることが、大規模モデルの精度を向上させる上での最大の課題であると考えています。
「
今、モデルの構造は誰にとっても秘密ではありません、そして訓練方法も秘密ではありませんが、コーパスはありません。コーパスはさまざまな場所に存在します、その仕事は非常に巨大であるため、それは巨大な物理的です」仕事、これは現時点での最大の課題はどれかではなく、これが最大の課題です。さらに、大規模モデルの実装において、Sun Yuanhao 氏は、モデルの精度を向上させる現在の方法には次のようなものがあると考えています: 1. プラグインの知識ベースを構築します: 会社の情報と記事を統合します。解析後、ナレッジ ベースに配置し、大きなモデルにナレッジ ベースの内容を参照させて書き込みや分析を行うことで、モデルの精度を迅速に向上させることができます。 2. モデルの微調整: 大規模なモデルを微調整することで、特定の分野の知識と言語の習慣を学習し、その分野のモデルの精度を向上させることができます。 3. 継続的なトレーニング: 金融などの分野では、モデルの精度と財務上の質問に答える能力を向上させるために、大規模なモデルに大量のコーパスを継続的にフィードする必要があります。 4. コーパス開発ツールを提供する: 企業がコーパスを整理および整理し、大規模なモデルのトレーニングに適した形式に変換できるように支援するコーパス開発ツールを開発します。これにより、モデルの精度が向上します。 5. 複数の方法を組み合わせる: モデルの精度をさらに向上させるためにモデルを微調整または継続的にトレーニングしながらプラグインのナレッジベースを構築するなど、上記の方法を組み合わせることができます。 Sun Yuanhao 氏は、この 1 年間、大きなモデルは書くことも生成することもできるので「文系の学生」であると言い続けてきたと比喩的に言いました。数学的な分析ができ、自然科学のさまざまな分野や分野を理解できることを期待しています。 Xinghuan Technology の AI インフラ ツールを通じて、企業は複数のソースからのマルチモーダル コーパスを高品質の専門分野の知識に正確かつ効率的に変換でき、知識の壁を構築できるようになります。
以上が主演テクノロジー Sun Yuanhao: コーパスはすでに大規模モデルにとって最大の課題ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。