データソースは依然として人工知能の主なボトルネックである-AI-php.cn

ホームページ

テクノロジー周辺機器

データソースは依然として人工知能の主なボトルネックである

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 10:41 AM

AIディープラーニングデータソース

今週発表された Appen の「人工知能と機械学習の現状」レポートによると、各政府機関は依然として人工知能と機械学習プログラムを維持するための良質でクリーンなデータの取得に苦労しています。

データソースは依然として人工知能の主なボトルネックである

504 人のビジネスリーダーとテクノロジー専門家を対象とした Appen の調査によると、人工知能の 4 つの段階のうち、データソース、データ準備、モデルのトレーニングと導入、人間主導のモデル評価フェーズ - データソースは最も多くのリソースを消費し、最も時間がかかり、最も困難です。

Appen の調査によると、データソースは組織の AI 予算の平均 34% を消費しており、データの準備、モデルのテスト、展開がそれぞれ 24%、モデルの評価が 15% を占めています。この調査は Harris Poll によって実施され、米国、英国、アイルランド、ドイツの IT 意思決定者、ビジネスリーダーおよびマネージャー、テクノロジー実務者が参加しました。

データソースは依然として人工知能の主なボトルネックである

時間の観点から見ると、データソースは時間の約 26% を消費し、データの準備時間は 24%、モデルのテスト、展開、およびモデルの評価時間はそれぞれ 23% です。最後に、技術者の 42% は、データ調達が AI ライフサイクルの中で最も困難な段階であると考えています。他の段階は、モデルの評価 (41%)、モデルのテストと展開 (38%)、データの準備 (34%) です。）。

課題にもかかわらず、組織はそれを機能させるために懸命に取り組んでいます。 Appen 氏によると、回答者の 5 分の 4 (81%) が、AI への取り組みをサポートするのに十分なデータを持っていると回答しました。成功の鍵は次のとおりかもしれません。大多数 (88%) の企業が、Appen などの外部 AI トレーニングデータプロバイダーを使用してデータを増強しています。

ただし、データの正確性には依然として疑問が残ります。 Appen 氏は、80% 以上のデータ精度を報告した回答者はわずか 20% であることを発見しました。データが 90% 以上正確であると答えたのはわずか 6% (約 20 人に 1 人) でした。

これを念頭に置くと、Appen の調査によると、回答者のほぼ半数 (46%) がデータの正確性が重要であると考えています。データの正確性が大きなニーズではないと考えているのはわずか 2% ですが、51% はそれが重要なニーズであると考えています。

Appen の最高技術責任者である Wilson Pang 氏は、データ品質の重要性について異なる見解を持っており、彼の顧客の 48% はデータ品質が重要であると信じていません。

「質の高いデータはより優れたモデル出力と一貫した処理と意思決定を生み出すため、AI および ML モデルの成功にはデータの精度が非常に重要です。」とレポートは述べています。

ディープラーニングとデータ中心の人工知能の台頭により、AI の成功の動機は、優れたデータサイエンスと機械学習モデルの移行から優れたデータ収集へと移行しました。、管理とラベル付け。これは、今日の転移学習技術に特に当てはまります。人工知能の実践者は、事前にトレーニングされた大規模な言語モデルやコンピュータービジョンモデルを放棄し、その一部を独自のデータで再トレーニングします。

より良いデータは、AI モデルに不必要なバイアスが浸透するのを防ぎ、AI が引き起こす可能性のある悪い結果を防ぐのにも役立ちます。これは特に大規模な言語モデルに当てはまります。

レポートには次のように記載されています:「多言語の Web スクレイピングデータでトレーニングされた大規模言語モデル (LLM) の台頭により、企業は新たな課題に直面しています。トレーニングコーパスは有害な言語、人種、性別、宗教などで満たされているため、企業は新たな課題に直面しています。」

ネットワークデータのバイアスは厄介な問題を引き起こしますが、回避策はいくつかあります (トレーニング計画の変更、トレーニングデータとモデルの出力のフィルタリング、人間のフィードバックとテストから学ぶ)ただし、「人間中心の LLM」ベンチマークとモデル評価方法の優れた標準を作成するには、さらなる研究が必要です。

アッペン氏は、データ管理は依然として人工知能が直面している最大の障害であると述べた。調査によると、41% の人が人工知能サイクルにおける最大のボトルネックはデータ管理であると考えていることがわかりました。 4 位はデータ不足で、回答者の 30% がこれが AI の成功に対する最大の障害であると述べています。

しかし、良いニュースもいくつかあります。企業がデータの管理と準備に費やす時間が減少しています。アッペン氏によると、昨年の報告書では53％だったのに対し、今年は47％強となった。

「回答者の大多数が外部のデータプロバイダーを使用しているため、データの調達と準備をアウトソーシングすることで、データサイエンティストはデータの適切な管理、クリーニング、ラベル付けに必要な時間を節約していると推測できます。」と会社は言いました。

ただし、データのエラー率が比較的高いことから判断すると、おそらく組織はデータソースと準備プロセス (内部または外部を問わず) を縮小すべきではありません。 AI プロセスの構築と維持に関しては、多くの競合するニーズが存在します。Appen が特定したもう 1 つの上位のニーズは、資格のあるデータ専門家を雇用する必要性でした。ただし、データ管理に大きな進歩が見られるまで、組織はデータ品質の重要性を推進し続けるようチームに圧力をかけ続ける必要があります。

この調査では、93% の組織が AI 倫理が AI プロジェクトの「基礎」であるべきであることに強く、またはある程度同意していることも判明しました。 AppenのCEOマーク・ブレーヤン氏は、良いスタートだったが、やるべきことはまだたくさんあると語った。「問題は、多くの人が貧弱なデータセットで優れた AI を構築しようとする課題に直面しており、そのことが目標達成に大きな障害となっているということです」と Brayan 氏はプレスリリースで述べました。企業内でカスタム収集されたデータは依然として AI に使用される主要なデータセットであり、データの 38% ～ 42% を占めます。合成データは組織のデータの 24% ～ 38% を占め、驚くほど優れたパフォーマンスを示しました。一方、事前にラベル付けされたデータ (通常はデータサービスプロバイダーからの) はデータの 23% ～ 31% を占めていました。

特に、合成データには機密性の高い AI プロジェクトにおけるバイアスの発生を減らす可能性があり、Appen の調査参加者の 97% が「包括的なトレーニングデータセットの開発」に合成データを使用していると回答しています。

データソースは依然として人工知能の主なボトルネックであるレポートのその他の興味深い調査結果は次のとおりです。

組織の 77% が毎月または四半期ごとにモデルを再トレーニングしています。( AI 時代: 人工知能は 1 回限りのソリューションではありません。アプリケーションのニーズに応じて改善し続け、常に更新する必要があります。)

アメリカ企業の 55% が、競合他社よりも優れていると主張しています。一方、ヨーロッパではこの割合は 44% です; (AI 時代の最前線からの解釈: ヨーロッパ人はアメリカ人よりもわずかに控えめです。)
組織の 42% は、人工知能が「
7% の組織が AI 予算が 500 万米ドルを超えていると報告しました (昨年は 9%)。（AI時代の最前線からの解釈：人工知能が徐々に成熟してコストが削減されていることが原因である可能性がある一方で、人工知能がもはや「贅沢品」ではなく、徐々に高級品になりつつあることも示しています）企業にとって「必須」です。)

以上がデータソースは依然として人工知能の主なボトルネックであるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。