ホームページ >テクノロジー周辺機器 >AI >データ管理が人工知能開発の最大のボトルネックになっている
インフラストラクチャが優れていることの真の兆候は、それが簡単に見落とされることです。パフォーマンスが良くなればなるほど、私たちはそれについて考える必要がなくなります。たとえば、モバイル インフラストラクチャの重要性は、接続に苦労しているときに初めて思い浮かびます。舗装されたばかりの新しい高速道路を運転するときと同じように、車輪の下を静かに通過する路面のことはほとんど考えません。一方、整備の行き届いていない高速道路は、あらゆるポットホール、芝生、段差などでその存在を思い出させます。
インフラストラクチャが私たちの注意を必要とするのは、それが欠落しているか、不十分であるか、損傷している場合のみです。そして、コンピューター ビジョンにおいて、インフラストラクチャ、あるいはむしろインフラストラクチャに欠けているものは、現在多くの人が懸念しているものです。
すべての AI/ML プロジェクト (コンピューター ビジョンを含む) を支えるのは、データ、アルゴリズム/モデル、コンピューティングという 3 つの基本的な開発の柱です。これら 3 つの柱の中で、最も強力で堅牢なインフラストラクチャを備えているのはコンピューティングです。数十年にわたる企業の専念的な投資と開発により、クラウド コンピューティングは企業の IT 環境全体の IT インフラストラクチャのゴールド スタンダードになりました。コンピューター ビジョンも例外ではありません。
インフラストラクチャ-アズ-ア-サービス モデルでは、開発者は 20 年近くにわたって、拡大し続けるコンピューティング パワーのパイプラインへのオンデマンドの従量課金制アクセスを享受してきました。その間、俊敏性、コスト効率、拡張性などを劇的に向上させ、エンタープライズ IT に革命をもたらしました。専用の機械学習 GPU の出現により、コンピューター ビジョン インフラストラクチャ スタックのこの部分は生き続けていると言っても過言ではありません。コンピューター ビジョンと AI がその可能性を最大限に発揮したい場合は、残りの CV インフラストラクチャ スタックのベースとなるモデルとしてコンピューティングを使用することが賢明です。
最近まで、アルゴリズムとモデル開発はコンピューター ビジョンと人工知能の開発の原動力でした。研究面と商用開発面の両方で、チームは長年にわたって AI/ML モデルのテスト、パッチ適用、段階的な改善に熱心に取り組み、その進捗状況を Kaggle などのオープンソース コミュニティで共有してきました。コンピューター ビジョンと人工知能の分野は、アルゴリズム開発とモデリングに注力することにより、新世紀の最初の 20 年間に大きな進歩を遂げました。
しかし、モデル中心の最適化が収穫逓減の法則に違反するため、近年、この進歩は鈍化しています。さらに、モデル中心のアプローチにはいくつかの制限があります。たとえば、トレーニングに同じデータを使用して、モデルを再度トレーニングすることはできません。モデル中心のアプローチでは、データのクリーニング、モデルの検証、トレーニングの点でより多くの手作業が必要となり、より革新的な収益を生み出すタスクから貴重な時間とリソースが奪われる可能性があります。
現在、CV チームは、Hugging Face などのコミュニティを通じて、オブジェクト認識や顔のランドマーク認識など、さまざまなコア CV 機能をサポートする、膨大で大規模で複雑なアルゴリズム、モデル、アーキテクチャに無料かつオープンにアクセスできるようになりました。姿勢推定と特徴照合を行います。これらの資産は想像できる限り「既製」ソリューションに近くなり、コンピューター ビジョンと AI チームに、さまざまな特殊なタスクやユースケースをトレーニングするための既製のホワイトボードを提供します。
手と目の調整などの人間の基本的な能力を、卓球からピッチングまで、さまざまなスキルに適用してトレーニングできるのと同じように、これらの最新の ML アルゴリズムも、さまざまな特定のタスクを実行するようにトレーニングできます。 。 応用。ただし、人間は長年の練習と汗を経て専門化しますが、機械はデータのトレーニングを通じてこれを行います。
これにより、人工知能分野の多くの指導的人物が、ディープラーニング開発の新時代、つまりメインの進歩のエンジン それはデータです。ほんの数年前、Andrew Ng らが AI 開発の方向性はデータ中心であると発表しました。この短期間に、この業界は繁栄しました。わずか数年のうちに、ロボット工学や AR/VR から自動車製造やホーム セキュリティに至るまで、幅広い業界にまたがるコンピュータ ビジョンの新しい商用アプリケーションやユース ケースが多数登場しました。
最近、私たちはデータ中心のアプローチを使用して、自動車のハンドル操作検出に関する研究を実施しました。私たちの実験では、このアプローチと合成データを使用することで、トレーニング データセットに欠けている特定のエッジ ケースを特定して生成できることがわかりました。
Datagen は、ハンドルの実地テスト用の合成画像を生成します (画像提供: Datagen)
コンピュータ ビジョン業界ではデータの話題が飛び交っていますが、そのすべてが熱狂的なものであるわけではありません。データが前進への道であることは現場で確立されていますが、その過程には多くの障害や落とし穴があり、その多くはすでに CV チームの足かせとなっています。米国のコンピュータ ビジョン専門家を対象とした最近の調査では、この分野がプロジェクトの長期遅延、標準化されていないプロセス、リソース不足に悩まされていることが明らかになりました。これらの原因はすべてデータにあります。同じ調査では、回答者の 99% が、トレーニング データが不十分なために、少なくとも 1 つの CV プロジェクトが無期限にキャンセルされたと述べています。
これまでプロジェクトのキャンセルを回避できた幸運な 1% であっても、プロジェクトの遅延を避けることはできません。調査では、すべての回答者が、トレーニング データが不十分または不十分であるためにプロジェクトに大幅な遅延が発生していると報告しており、80% の遅延が 3 か月以上続いていると報告しています。結局のところ、インフラストラクチャの目的は実用性、つまり促進、加速、通信の 1 つです。重大な遅延がビジネスの一部である世界では、重要なインフラストラクチャが欠落していることは明らかです。
しかし、コンピューティングやアルゴリズムとは異なり、AI/ML 開発の 3 番目の柱はインフラストラクチャ化には適していません。特にコンピュータ ビジョンの分野では、この分野では、データは大きく、整理されておらず、収集と管理には時間とリソースの両方がかかります。オンラインには、ラベル付きで自由に利用できるビジュアル トレーニング データのデータベース (今では有名になった ImageNet データベースなど) が多数ありますが、商用履歴書開発におけるトレーニング データのソースとしては、それだけでは不十分であることが証明されています。
これは、設計によって一般化されたモデルとは異なり、トレーニング データはその性質上、アプリケーション固有であるためです。データは、特定のモデルのアプリケーションを別のアプリケーションから区別するものであるため、特定のタスクに対してだけでなく、そのタスクが実行される環境やコンテキストに対しても一意である必要があります。光の速度で生成してアクセスできるコンピューティング能力とは異なり、従来の視覚データは人間が作成または収集し (現場で写真を撮るか、インターネットで適切な画像を検索することによって)、人間が丹念にクリーニングしてラベルを付ける必要があります (これは人的ミス、不一致、偏見が発生しやすいプロセスです)。
これにより、「特定のアプリケーションに適しており、 簡単にコモディティ化できる (つまり、高速、安価、多用途) データ視覚化をどのように作成できるでしょうか?」という疑問が生じます。これら 2 つの特性にもかかわらず、矛盾しているように見えるかもしれませんが、潜在的な解決策が現れ、これら 2 つの基本的だが相容れないように見える性質を調和させる方法として大きな期待を示しています。
合成データと完全な CV スタックへのパス特定のアプリケーションを備え、時間とリソースを大規模に節約するビジュアル トレーニング データを作成する唯一の方法は、合成データを使用することです。この概念に馴染みのない人のために説明すると、合成データは、現実世界の同等のものを忠実に表すように設計された人間が生成した情報です。視覚的な合成データの観点からは、静止画像またはビデオの形式でリアルなコンピューター生成 3D 画像 (CGI) を意味します。 データセンター時代に生じる多くの問題に対応して、合成データ生成を中心に急成長する業界が形成され始めています。合成データを活用するさまざまなソリューションを提供する中小規模の新興企業のエコシステムが成長しています。上記の一連の問題点を解決するためのデータ。 これらのソリューションの中で最も有望なものは、AI/ML アルゴリズムを使用してフォトリアリスティックな 3D 画像を生成し、各データ ポイントに関連するグラウンド トゥルース (メタデータ) を自動的に生成します。したがって、合成データにより、多くの場合数か月に及ぶ手動のラベル付けと注釈のプロセスが不要になると同時に、人的エラーや偏見の可能性も排除されます。 私たちの論文 (NeurIPS 2021 で発表)「合成データを使用した顔ランドマーク検出におけるグループバイアスの発見」では、トレーニングされたモデルのパフォーマンスを分析し、その弱点を特定するには、データのサブセットがテストを実行するために脇に置いてください。テスト セットは、対象母集団内のすべての関連サブグループに関して統計的に有意な偏差を検出するのに十分な大きさでなければなりません。この要件を満たすのは、特にデータ集約型のアプリケーションでは難しい場合があります。Computer Vision (CV) は現代の人工知能の主要分野の 1 つ
私たちは、合成テスト セットを生成することで、この困難を克服することを提案します。実際のデータセットで観察されたすべてのバイアスが、適切に設計された合成データセットでも見られることを示すことで、顔のランドマーク検出タスクを使用して提案を検証します。これは、合成テスト セットがモデルの弱点を効果的に検出し、実際のテスト セットのサイズや多様性の制限を克服できることを示しています。
現在、新興企業は企業の履歴書チームに、偏見を軽減し、データ収集の拡張を可能にする洗練されたセルフサービスの合成データ生成プラットフォームを提供しています。これらのプラットフォームを使用すると、エンタープライズ CV チームは、従量制のオンデマンド ベースでユースケース固有のトレーニング データを生成でき、従来のデータがインフラストラクチャに適さない原因となっていた特異性と規模の間のギャップを埋めることができます。
コンピュータ ビジョンの分野にとって、今が刺激的な時期であることは否定できません。しかし、他の変化する分野と同様に、今は困難な時期です。優れた才能と優秀な頭脳が、アイデアと熱意に満ちた分野に飛び込みますが、適切なデータ パイプラインの不足によって足止めされていることに気づきます。この分野は非効率にはまり込んでおり、今日のデータサイエンティストはすでに組織の 3 分の 1 がスキルギャップに苦しんでいる分野として知られており、貴重な人材を無駄にするわけにはいきません。
合成データは、真のトレーニング データ インフラストラクチャへの扉を開きます。これは、いつか水を飲むために蛇口をひねったり、計算を提供したりするのと同じくらい簡単になるかもしれません。これは、世界中のデータ管理者にとって歓迎すべきリフレッシュとなるでしょう。
以上がデータ管理が人工知能開発の最大のボトルネックになっているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。