ホームページ  >  記事  >  テクノロジー周辺機器  >  AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

PHPz
PHPz転載
2023-06-08 11:38:451185ブラウズ

#この記事は、Everyone is a Product Manager の「オリジナル インセンティブ プラン」によって作成されました。

大規模な AI モデルは現在非常に人気があり、あらゆる企業がその一部を望んでいますが、このプロセスの実現に必要なアルゴリズムとデータを把握するのは簡単ではありません。中でもデータの送信と管理は大きな問題です。この記事では、AI アプリケーションのトレーニングのボトルネックに焦点を当て、AI トレーニングの難しさをまとめ、IDC 分析レポートと組み合わせて、「データ」が最大のボトルネックであると結論付け、この問題の解決策を検討します。

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

1. 製品の背景

「最近、再びAIについて議論する声が上がっています。ここ2年間のAIに対する様子見姿勢とは異なり、ChatGPTの応用で本格的にAI時代が到来したと言う人も多く、製品と運用の学生は忙しいです 私たちは ChatGPT が何であるか、安定拡散が何であるかなどを理解していますが、アルゴリズム エンジニアは頭がおかしくなり、狂ったように不平を言っています リーダーたちは彼らに、できるだけ早く大規模なモデルを構築し、アルゴリズム モデルの指標をできるだけ早く作成し、ビジネスに役立てるアルゴリズム チームの前を通りかかったとき、Zhang Gong と Hu の作業員の次のような会話が聞こえました。

Gong Zhang: 胡兄弟、モデルのトレーニングはどうですか?

Hu Gong: ああ、一言で説明するのは難しいです。データがありません。最終的に事業部門にデータを提出しましたが、データが収集できなかったか、収集したデータがすべて異なっていて収集できませんでした。使われないの?

Zhang Gong: そうではないのは誰ですか? 私も同じです。最近、お客様の写真とビデオが合計 10 T を超えました。私たちはそれらを自分たちで送信するように求められました。私たちのチームは、データをインポートするだけで長い時間がかかりました。データ。

Hu Gong 氏は、データを迅速に取得して管理できるデータ プラットフォームを会社が構築できれば、日常業務でのデータの使用がさらに便利になると述べました。 「

上記の話を聞いて、私は最近、データウィービングの考え方に基づいて顧客向けに構築したデータ管理プラットフォームが顧客の課題を解決できると思い、すぐに詳細な製品紹介をして顧客に伝えました。 「データ ウィービング」の設計コンセプトは、ユーザーが AI アプリケーションのトレーニングにおけるデータのボトルネックを突破できるようにするデータ管理プラットフォームを構築します。

2. AI トレーニング アプリケーションの難しさ

AI活用研修の客観的な難しさを人事の主観的な問題を除いてまとめると、以下の3点に集約されます。

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

高品質なデータ:

アルゴリズムのトレーニングで良い結果を達成するには、高品質なデータが第一条件ですが、高品質なデータを取得する方法には次のような困難があります。 データの多様性: さまざまな形式の構造化/非構造化データがあり、さまざまなシステムから提供されるデータには統一された標準がありません。

    データ分散: 多くのビジネス データは個別に保存されており、統合されたデータ管理プラットフォームが不足しているため、アプリケーションのトレーニング前にデータを取得するのは困難です。
  • データ アノテーション: データは即座に取得できますが、適用する前に大量のビジネス データにアノテーションを付ける必要があり、アノテーションには時間と労力がかかります。
  • 効率的な計算能力:
とは、モデルをトレーニングするときに通常、大量の計算能力が必要になると同時に、その計算能力を効率的に使用することが難しいという事実を指します。

いつの時代でも、大規模なモデルが徐々に推進され、モデルのサイズはますます大きくなり、コンピューティング能力の需要も急速に増加しています。

データ ストレージが離散的であると、データへのアクセスが遅くなり、クラスターのコンピューティング能力があっても、並列処理が不可能な場合、コンピューティング能力は効率的に適用されません。
  • 成熟したフレームワーク:
  • は、成熟した、安定した、拡張性の高いアルゴリズム フレームワークを必要とするアルゴリズム アプリケーションを指します

アプリケーション フレームワーク: 現在、国内外で多くの深層学習アルゴリズム フレームワークが存在しており、アルゴリズム研究 (Pytorch) と産業アプリケーション (Tensorflow) では、異なるフレームワークを選択する必要があります。

データ変換: 使用されるフレームワークや言語が異なるため、高品質のデータが用意されたとしても、異なる言語やトレーニング フレームワークに迅速に適応させる必要があります。
  • 要約:
  • AI アプリケーション トレーニングの 3 つの困難を分析すると、それらはすべてデータに関連しているため、データの問題を解決できれば、AI アプリケーション トレーニングが困難を突破するのに効果的に役立ちます。ボトルネック。

3. AI アプリケーションのボトルネックはデータですか? AIアプリケーション学習のボトルネックはアプリケーション側からのデータ集約ですが、そう思っているユーザーはどれくらいいるでしょうか?説明するにはデータが必要です。

人工知能アプリケーションにおける主な課題のランキング

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

人工知能モデルの開発中のデータ準備にどれだけの労力が費やされるか

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援します

注:

データは IDC 統計レポートから取得したものです

統計からわかるように、ユーザーの 29% は人工知能のアプリケーションにはトレーニング データとテスト データが不足していると考えており、ユーザーの 85% はワークロードの少なくとも半分がデータの準備に費やされていると考えています。

要約: データが AI アプリケーションのボトルネックであることが証明されているため、統一された標準と、可用性の高い大量のデータへの高速アクセスを提供するために、データからエントリ ポイントを探すことを検討できます。 ポジショニングを考慮した商品企画を実施します。

4. 製品デザイン

エントリ ポイントとしてデータを見つけた後、データ ベースの製品を構築する方法を考えます。上記の分析に基づいて、製品ではデータ ベースの 3 つの問題を解決する必要があることがわかります。

    質問 1:
  • データ ストレージ。ソース データの保存場所は変更しないようにし、データ ストレージのコストを最小限に抑えてください。
  • 質問 2:
  • 高速アクセス。初期のデータ クエリからデータ推論に変更し、必要なデータを迅速に検索することが最善です。
  • 質問 3:
  • 標準を統一して複雑なデータを標準化し、簡単に適用できるようにします。
  • 従来のデータ管理プラットフォームをベースに、「データウィービングとナレッジグラフ」の概念を採用し、上記の課題に対処するための変革設計を実行します。各課題の突破ポイントは次のとおりです。

    質問 1:
  • データ ウィービングのアイデアに基づいたデザイン
  • 質問2:
  • ナレッジグラフの考え方に基づいた設計
  • 質問 3:
  • 統合データ プラットフォームに基づく外部サービスの提供
  • 次のステップは製品の詳細設計であり、製品のポジショニング、アプリケーション アーキテクチャ、差別化された競争力、構築パスから説明します。

1. 製品アーキテクチャ

1) 製品のポジショニング

データウィービングの考え方に基づいたナレッジグラフ型のデータ管理プラットフォームを提供し、高品質なデータを必要とする顧客にサービスを提供します。

注:

主な目的はAIアプリケーション学習におけるデータボトルネックの解決ですが、商品企画の観点からユーザーシナリオを拡大し、データサービスを必要とするあらゆるユーザーを対象としています。この商品の。

2) 製品アプリケーション アーキテクチャ

データ層から製品アプリケーション層まで、次の製品アーキテクチャを設計します:

AI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援しますデータ レイヤー: 構造化データと非構造化データだけでなく、さまざまな種類のデータへのアクセスをサポート AI トレーニング、特に複数の種類のデータを必要とするマルチモーダル アプリケーションには多くの種類のデータがあります。

ストレージ層: データの離散的な性質を考慮すると、さまざまな場所でのデータの保存をサポートし、クラウド データからローカル データへのアクセスをサポートする必要があります。

データ管理プラットフォーム: 今回設計するコア製品は主に 4 つの部分で構成されます。

データ ガバナンス: 従来のすべてのデータ管理プラットフォームが持つ共通モジュールで、データ分析、クリーニング、ルール定義などの機能を提供します。
  1. データ セキュリティ: これも従来のモジュールに属し、データの非感作化、安全なデータ送信などのデータ セキュリティに関連する機能を提供します。
  2. データ仮想化ストレージと分散キャッシュ: ここでは、データ ウィービングのアイデアを使用して、さまざまなプラットフォームからのデータをグリッド織りしてデータ ビューを形成し、同時に保存されたデータの論理情報のみを仮想化します。データの移行とコピーによりストレージ コストが削減されますが、データを迅速に取得するために、頻繁にアクセスされるデータをキャッシュする分散キャッシュが設計で提供され、AI アルゴリズム トレーニング用のデータの I/O 速度と並列性が向上します。最大化 コンピューティング クラスターの効率を向上させます。
  3. ナレッジ グラフ: データをクリーンアップし、ルールを定義し、ナレッジ グラフ トリプルの形式で保存し、ナレッジ グラフの形式で外部クエリ サービスを提供します。ナレッジ グラフは、検索推論に役立ちます。特定のエンティティ データは別のエンティティ データに関連付けられています。たとえば、映画ビデオ データをクエリする場合、「人々は当惑への道を進んでいます」を検索できます。俳優「Wang Baoqiang」と「Xu Zheng」を通じて、「 Tai囧」が関連付けられます。関連付け推論によるクエリは、ユーザーがプラットフォームから必要なデータを迅速に抽出するのに役立ちます。
  4. データサービス: プラットフォーム設計後、外部サービスの受け皿を確保する必要がある プロダクトの位置付けから始まり、主にtoB顧客に焦点を当てているため、ビジュアルサービスとAPIサービスの両方を考慮する必要がある。

API/SDK サービス: この記事で解決したい AI トレーニング アプリケーションのボトルネックなどの技術力を持つ企業またはユーザーの場合、AI プラットフォームとデータ プラットフォームの API サービスを直接統合して、必要なデータを取得してクリーンアップし、そのデータはモデルのトレーニングに使用されます。
    注:
  • 通常、AI トレーニング プラットフォームには注釈付きデータが必要なので、最初に注釈プラットフォームに接続してから、データを AI トレーニング プラットフォームに直接送信できます。 ビジュアル クエリ: もちろん、技術レベルのドッキングを考慮することに加えて、製品マネージャーや運用マネージャーなど、プラットフォーム上でのデータのクエリやデータのダウンロードなどのビジネス ユーザーの行動も考慮する必要があります。プラットフォーム自体が提供するビジュアル クエリに依存します。データを取得してダウンロードした後、処理と生産のために他のビジネス プラットフォームにインポートされます。ビジュアル クエリはグラフ構造を採用し、Tianyancha スタイルを参照として使用します。特定のデータに関連するデータが同時に表示され、ユーザーの推論とクエリが容易になります。

イラスト: Tianyancha のスクリーンショットは学習の参考のみを目的としています

2.商品化

製品は発売されたら商品化できないため、商品企画段階で商品化の方向性を明確に検討する必要があり、次の 3 つの点を考慮する必要があります。

1) コンテンツの販売

Bエンド顧客向けに、「データマネジメントプラットフォーム」の標準製品と「テクニカルソリューション」の2種類の販売コンテンツを提供します。

    標準製品: データ管理プラットフォームを持たないユーザーの場合、標準製品を購入し、データにアクセスし、ビジネスに適用するだけで、すぐに使用できるようになります。
  • 技術ソリューション: デジタル変革トレンドの影響を受けて、B 側の企業顧客の多くは多かれ少なかれ独自のデータ管理プラットフォームを持つようになります。したがって、toB のもう 1 つのセールス ポイントは、成熟した技術ソリューションを販売することであり、これは有益です。現時点では、「データを織り交ぜるナレッジグラフ」の設計思想に基づいて、顧客の製品を最下位層からサービス層まで変革する必要があります。

2) 販売方法

Bエンド商品の販売モデルとしては「チャネル連携」と「直販」が一般的ですが、本商品でもこれらの手法が採用されています。

    チャネル連携: 都道府県や市区町村のエージェントが現地で推進するチャネル連携と、ISVモデルで技術力のある集中エージェントを見つけ、データ管理プラットフォームと自社製品を統合するチャネル連携の2種類を選択お互いの利点を補完し、それを外部に宣伝することができます。
  • 直接販売: 製品の発売、広告プロモーション、顧客訪問などによる製品の直接販売。

3) 差別化の利点

新しい設計思想に基づいたデータ管理プラットフォームであるため、製品の販売プロセスにおいて、ユーザーをキャッチアップし、引き付けるためには、従来のデータ管理プラットフォームとの差別化された利点を反映する必要があります。 3 つの利点:

    データ ウィービング: この製品は、データ管理にデータ ウィービングのアイデアを採用し、データ仮想化ストレージを使用してデータの物理ストレージ コストを削減すると同時に、データ キャッシュを使用してデータ取得のアクセス遅延を削減します。 AIアプリケーションのトレーニング中。
  • AI 機能: 従来のさまざまな条件によるデータ プラットフォームの検索方法とは異なり、この製品はナレッジ グラフ ビューの形式で直接表示され、ユーザーは簡単な条件を入力するだけで、システムは関連するデータ関係トポロジを返すことができます。 . 「データから人を見つける」を実現するために。
  • 成熟した標準製品: 技術的なソリューションを販売することはできますが、成熟した標準製品がなければ顧客に感動を与えるのは難しいため、大規模で包括的なデータ管理プラットフォームを販売する従来のメーカーとは異なり、「小規模だが洗練された」ワンストップ サービスを販売します。 . インテリジェントなデータ管理プラットフォーム。
  • 3. 構築パス
製品の成熟には継続的な構築パスも必要です この製品の構築プロセスでは、「プロジェクト磨き製品」に基づいて、大きく 2 つの段階で構築されます。

    プロジェクトの実施、技術の析出: 1/2 民営化データプロジェクトを実施することにより、データの織り込みとナレッジグラフ構築のアイデアがプロジェクトに析出し、技術の析出が達成されます。
  • プロダクト実装とブランドプロモーション:実際のプロジェクトからプロダクトを抽象化して反復実装し、プロダクト構築後はブランディングと対外プロモーションを実施します。
  • ###5。結論
  • この記事では、AI アプリケーション トレーニングのボトルネックに焦点を当て、AI トレーニングの難しさを要約し、IDC 分析レポートと組み合わせて、「データ」が最大のボトルネックであると結論付け、この問題の解決策を検討します。

データウィービングとナレッジグラフの概念に基づいて製品変革設計を実行し、「データ発見」のためのインテリジェントなデータ管理プラットフォームを製品のポジショニング、製品アーキテクチャ、アプリケーションシナリオなどの観点から詳細に紹介します。ビジネス推進のアイデアと構築パスは、AI トレーニング プラットフォーム、データ アノテーション プラットフォームなどのデータ アプリケーション シナリオ、さらには従来のデータ管理の変革とアップグレードが必要な顧客を支援します。製品。

将来的には、モデルの並列トレーニングの実際のプロセスにデータを組み込むことを拡張して、データ効率のさらなる実現可能性を追求するというアイデアをさらに検討していきます。

###コラムニスト###

Eric_d、誰もがプロダクト マネージャーのコラムニストです。 AI、ビッグデータ、その他の分野に情熱を持っており、要件分析、製品プロセス、アーキテクチャ設計の優れたスキルを持っています。また、ハイキングも好きです。

この記事は、みんながプロダクトマネージャーの「オリジナルインセンティブプラン」によって作成されました。

タイトル画像は、CC0 契約に基づいて Unsplash から提供されたものです。

以上がAI 業界への応用: データ ウィービングは AI アプリケーション トレーニングのブレークスルーを支援しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はsohu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。