ホームページ > 記事 > テクノロジー周辺機器 > データ サイエンス チームにおけるこれらの役割について知っておくべきこと
翻訳者|李瑞
レビュアー|孫樹娟
世界的に有名なストリーミングサービスNetflixは、2017年に5つ星の評価システムを「親指」に変更しましたシンプルな「親指」の評価システム「ダウン」(好き)と「サムズダウン」(嫌い)。このシステムは一致率に基づいて映画を推奨できますが、これを不快に思う人もいます。では、映画芸術におけるすべての微妙なニュアンスを原始的な二項反応に還元するにはどうすればよいでしょうか? 高い評価を与えても、必ずしも彼らが実際に楽しんで観て楽しめる映画であるとは限りません。少なくともデータはそう言っています。では、Netflix のような企業ではデータ分析はどのように機能するのでしょうか?データサイエンスチームの役割は何ですか?
NETFLIX フィードバック システム
ギブソン ビドルは、Netflix の元副社長兼最高製品責任者です。消費者インサイトについて彼は、評価システム全体の変化につながった予期せぬ顧客の行動について説明しました。割合一致に換算すると、視聴者はアダム・サンドラーのコメディを楽しんでいるかもしれないが、その評価は星 3 つほど低いかもしれないが、視聴者はシンドラーのリストを見て気分が良くなるかもしれない、と Netflix は述べた。 , しかし、それは全体的な楽しみを増やすものではなく、加入者を満足させることがNetflixにとって非常に重要です。したがって、バイアスを避けるためにフィードバック システムを簡素化しました。しかし、こうした顧客の洞察はそれ自体が素晴らしいものであり、データの使用を促進する文化と強力なデータ インフラストラクチャがなければ不可能です。専門用語では、これをデータドリブン組織と呼びます。 データドリブン組織 「データドリブン」という人気の言葉を何度も聞いたことがあるかもしれませんが、実際には何を意味するのでしょうか? Netflix だけでも、ログインして映画のサムネイルをクリックすることから、ビデオを一時停止して字幕をオンにするまで、毎日 7,000 億件以上のイベントを記録しています。ユーザーはこれらすべてのデータを利用できます。 Tableau や Jupiter などの視覚化ツールを使用して誰でもアクセスできます。また、ユーザーがレポートの検査、レポートの生成、必要な情報のクエリを実行できる環境であるビッグ データ ポータルを通じてアクセスすることもできます。このデータは、小さなサムネイル (どのサムネイルを表示するかなど) から企業の意思決定 (Netflix がどの番組に投資して次に開始するかなど) に至るまで、ビジネス上の意思決定を行うために使用されます。 データドリブンな組織である企業は Netflix だけではありません。 Fortune 1000 企業の約 97% が人工知能やビッグデータなどのプロジェクトに投資していると推定されています。ここでは、実際のデータ インフラストラクチャ テクノロジーとそれを機能させるデータ エンジニアについて見ていきます。 データ インフラストラクチャ テクノロジデータ インフラストラクチャがどのように機能するかを説明するために、技術者は、通常は液体または気体を輸送する「パイプライン」という用語を借用します。データ パイプラインには、独自の開始点、終了点、および中間ステーションがあります。したがって、これは非常に適切な比喩です。データのソースは、保留ボタンをクリックしてページを更新することから、顧客サポートとの録音された会話、車両追跡装置から発電所のタービン振動センサーに至るまで、あらゆるものになる可能性があります。今日の世界では、データがなくても人々に何かを伝えることができる、生成できないものを言うのは実際には困難です。 データ項目が生成されると、データ項目はパイプラインに沿ってステージング領域に移動します。ここにすべての生データが保存されます。生データはまだ使用する準備ができていません。準備をしなければなりません。それが行われていない場合は、より微妙なビューを得るために、ギャップを埋めるか、形式を変更するか、さまざまなソースからのデータを組み合わせる必要があります。これらの操作が完了すると、構造化されたクリーンなデータが得られます。これらの操作はすべて自動的に実行されます。それらは 2 つの単語で説明されます。抽出: データ ソースからデータを抽出し、ステージング領域に送信します。
変換: 使用するデータを準備してロードし、準備されたデータをさらに ETL にプッシュします。
データ エンジニアは、パイプライン全体の構築を担当します。ほとんどの技術者は、いわゆる「配管」に精通しています。パイプラインを介してソースから宛先にデータを移動し、途中でデータを変換します。彼らは、パイプライン アーキテクチャを設計し、ETL プロセスをセットアップし、ウェアハウスを構成し、レポート ツールと接続します。たとえば、Airbnb には約 50 人のデータ エンジニアがいます。企業は、いくつかの追加ルールを伴う、より複雑なアプローチに遭遇する場合があります。たとえば、データ品質エンジニアは、データが正しく取得され、変換されていることを確認します。偏ったデータや不正確なデータがあると、そこから意思決定を導き出す際にコストがかかりすぎます。 ETL のみを担当する別のエンジニアが存在する場合もあります。さらに、ビジネス インテリジェンス開発者は、レポート作成ツールと視覚化ツールの統合のみに重点を置いています。しかし、レポート ツールは見出しを飾りません。データ エンジニアは 21 世紀で最高の仕事ではありませんが、機械学習とデータ サイエンティストはおそらく最高の仕事です。
データ サイエンティストは、データを収集し、次の四半期の会社の収益はいくらになるかなど、データに関する複雑な質問に答えるのが特に得意であることはよく知られています。 Uber で予約した車はいつ到着しますか? 「シンドラーのリスト」と「原石」が好きになる可能性はどのくらいですか?
これらの質問に答えるには、実際には 2 つの方法があります。データ サイエンティストは、ビジネス アナリストやデータ アナリストと同じように、ビジネス インテリジェンス ツールとウェアハウス データを扱います。したがって、倉庫からデータを取得します。データ サイエンティストは、データ レイクを使用することがあります。これは、非構造化不正データ用の別のタイプのストレージです。彼らは予測モデルを作成し、経営陣が使用できる予測を考え出します。収益見積もりを 1 回限りレポートするのには適していますが、Uber の予約のための車の到着時間を予測するのには役に立ちません。
機械学習の真の価値は、実稼働モデルが自動的に動作し、複雑な質問に対する答えを定期的に (場合によっては 1 秒あたり数千回) 生成できることであり、処理できる内容ははるかに複雑です。
モデルが機能するためには、インフラストラクチャも必要です。場合によってはこれが大きな問題となることもあります。データ サイエンティストは、データ ウェアハウスとデータ レイク内のデータを探索し、実験を実施し、アルゴリズムを選択し、モデルをトレーニングして最終的な機械学習コードを生成します。これには、統計データベース、機械学習アルゴリズム、および主題分野についての深い理解が必要です。
SLAC の元データ エンジニアリング責任者、ジョシュ ウィルズ氏は Twitter で、「データ サイエンティストは、どのソフトウェア エンジニアリングよりも統計に優れた人々です。」
たとえば、発注者は ubereats を使用します。ソフトウェアの注文。ユーザーが注文を確認したら、アプリケーションは配達時間、注文者の場所、レストラン、配達予測機械学習モデルが展開されているサーバーに送信する注文データを推定する必要があります。しかし、これらのデータだけでは十分ではありません。このモデルは、レストランの平均準備時間やその他の詳細を含む追加データを別のデータベースから取得します。すべてのデータが利用可能になると、モデルは予測を注文者に返します。ただし、プロセスはこれで終わりではありません。予測自体は別のデータベースに保存されます。モデルのパフォーマンスを監視し、後で更新できるように分析ツールを通じてモデルを調査することを目的としています。このすべてのデータは、最終的にデータ レイクとデータ ウェアハウスに保存されます。
実際、UberEats の食品注文サービスだけでも、同時に動作する数百の異なるモデルを使用して、推奨事項をスコアリングし、検索でレストランをランク付けし、配達時間を推定します。
Foursquare の中核テクノロジー リーダーであるアダム ワックスマン氏は、モデル トレーニングの自動化と継続的なトレーニングにより、将来的にはデータ サイエンティストや機械学習エンジニアがいなくなると考えています。実稼働環境の構築、多くのデータサイエンティストの仕事がソフトウェア開発における一般的な職務になるでしょう。
元のタイトル: データ サイエンス チームの役割 、著者: Anomi Ragendran
以上がデータ サイエンス チームにおけるこれらの役割について知っておくべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。