ホームページ > 記事 > テクノロジー周辺機器 > 機械学習ツールボックスには 6 つの重要なアルゴリズムが隠されています
フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の将来の位置を予測することに夢中になっています。彗星の以前の位置を考慮して、彼は次のように考えていました。その軌道を計算する方法を作成します。
いくつかの方法を試した結果、ようやく進歩しました。
ルジャンドル氏は、彗星の将来の位置を推測することから始め、データを記録して分析し、最終的に二乗誤差の合計を減らすためにデータを通じて推測を検証しました。
これは線形回帰の種です。
普及への 2 つのステップ: このアルゴリズムは、航海士が恒星を追跡するのにすぐに役立ち、またその後の生物学者 (特にチャールズ ダーウィンのいとこであるフランシス ゴルトン) が植物や動物の遺伝的特徴を特定するのに役立ちました。これら 2 つのさらなる開発により、線形回帰の幅広い可能性が解き放たれました。 1922 年、英国の統計学者ロナルド フィッシャーとカール ピアソンは、線形回帰が相関と分布の一般的な統計的枠組みにどのように適合し、あらゆる科学で役立つかを示しました。そして、ほぼ 1 世紀後、コンピューターの出現により、データをさらに活用するためのデータと処理能力が提供されました。
曖昧さへの対処: もちろん、データが完全に測定されることはなく、一部の変数は他の変数よりも重要です。これらの人生の事実は、より複雑なバリエーションを引き起こします。たとえば、正則化を伴う線形回帰 (リッジ回帰とも呼ばれます) は、線形回帰モデルが 1 つの変数にあまり依存せず、むしろ最も重要な変数に均等に依存するように促します。簡単にするために、別の形式の正則化 (L2 の代わりに L1) を使用すると、できるだけ多くの係数がゼロになるように促すラッソ (圧縮推定値) が生成されます。言い換えれば、予測力の高い変数を選択し、残りを無視することを学習します。エラスティック ネットワークは、これら 2 種類の正則化を組み合わせます。データがまばらな場合、または特徴が関連していると思われる場合に便利です。
各ニューロン内: さて、単純なバージョンは依然として非常に便利です。ニューラル ネットワーク内の最も一般的なタイプのニューロンは線形回帰モデルで、次に非線形活性化関数が続き、線形回帰が深層学習の基本コンポーネントとなっています。
ロジスティック回帰は 1 つのことを分類するためにのみ使用されていた時代がありました: 毒の瓶を飲んだ場合、あなたに付けられるラベルは「生きている」というものでしたそれとも「死んだ」?
この質問に対しては、緊急センターに電話することでより適切な答えが得られるだけでなく、ロジスティック回帰がディープラーニングの中心です。
この関数の起源は 1830 年代に遡り、ベルギーの統計学者 P.F. フェルフルストが人口動態を記述するために発明したものです。時間の経過とともに、利用可能なリソースが消費されるにつれて指数関数的増加の初期爆発は横ばいになります。これにより、特徴的なロジスティック曲線が生成されます。
1 世紀以上後、アメリカの統計学者 E. B. ウィルソンとその学生ジェーン ウースターは、特定の有害物質がどれだけ致死性を持つかを計算するロジスティック回帰を考案しました。
夕暮れ後に山をハイキングしていて、足元以外は何も見えなくなったことを想像してください。
携帯電話のバッテリーが切れているため、GPS を使用して家に帰る方法を見つけることができません。
おそらく勾配降下で最速の道を見つけることができますが、崖から落ちないように注意してください。
1847 年、フランスの数学者オーギュスタン ルイ コーシーは、恒星の軌道を近似するアルゴリズムを発明しました。
60 年後、彼の同胞であるジャック アダマールは、膝を立ててのハイキングを容易にするカーペットなどの薄くて柔軟な物体の変形を記述するためにこの理論を独自に開発しました。
ただし、機械学習では、最も一般的な用途は、学習アルゴリズムの損失関数の最低点を見つけることです。
アルゴリズムがおそらくあなたを山のふもとに追いやったわけではないので、携帯電話のバッテリーが切れてしまったのは残念です。
複数の谷 (極小値)、山 (極大値)、鞍点 (鞍点)、および台地で構成される非凸状の地形にはまってしまうことがあります。
実際、画像認識、テキスト生成、音声認識などのタスクはすべて非凸であり、この状況に対処するために勾配降下法の多くのバリエーションが登場しました。
たとえば、アルゴリズムには小さな浮き沈みを増幅させる勢いがあり、底値に到達する可能性が高くなります。
研究者らは非常に多くのバリエーションを考案したため、極小値と同じ数のオプティマイザーがあるように見えます。
幸いなことに、極小値と大域的極小値はほぼ等しい傾向があります。
勾配降下法は、関数の最小値を見つけるための明確な選択肢です。多数の変数を使用する線形回帰タスクなど、正確な解を直接計算できる場合は、値を近似することができ、多くの場合、より高速で安価です。
しかし、複雑な非線形タスクでは役割を果たします。
勾配降下と冒険心があれば、夕食までに山から脱出できるかもしれません。
まず問題を明確にしましょう。脳は一連のグラフィックス処理ユニットではありません。もしそうであれば、脳が実行するソフトウェアは典型的な人工知能よりもはるかに複雑になるでしょう。ニューラルネットワーク。 。
ただし、ニューラル ネットワークは脳の構造、つまり相互接続されたニューロンの層からインスピレーションを受けており、各層は隣接するニューロンの状態に基づいて独自の出力を計算します。その結果として生じる一連の活動が、猫の絵のアイデアや認識につながります。
生物学的なものから人工的なものへ: 脳がニューロン間の相互作用を通じて学習するという考えは 1873 年に遡りますが、アメリカの神経科学者ウォーレン・マカロックとウォルター・ピッツが単純な数学的規則を利用したのは 1943 年になってからでした。生物学的ニューラルネットワークモデルを構築します。
1958 年、アメリカの心理学者フランク ローゼンブラットは、アメリカ海軍用のハードウェア バージョンを構築することを目的として、パンチ カード マシンに実装された単層ビジュアル ネットワークであるセンサーを開発しました。
ローゼンブラットの発明では、単一行の分類のみを認識できます。
その後、ウクライナの数学者アレクセイ・イヴァクネンコとバレンティン・ラパは、ニューロンのネットワークを任意の数の層に積み重ねることでこの制限を克服しました。
1985年、フランスのコンピュータ科学者ヤン・ルカン、デビッド・パーカー、アメリカの心理学者デビッド・ルメルハートらは、独立して研究し、そのようなネットワークを効果的に訓練するためのバックプロパゲーションの使用について説明しました。
新世紀の最初の 10 年間に、クマール チェラピラ、デイブ シュタインクラウス、ラジャット ライナ (アンドリュー ンとの共同研究) を含む研究者は、グラフィックス プロセッシング ユニットの使用を通じてニューラル ネットワークをさらに推し進め、これによりますます大規模化が可能になりました。インターネットによって生成された大量のデータから学習するニューラル ネットワーク。
ニューヨーク・タイムズは、ローゼンブラットの 1958 年のセンサーについて報道し、「アメリカ海軍は歩き、話し、見、書くことができる機械を望んでいる」と指摘し、人工知能の誇大宣伝の先駆けとなりました。
当時のセンサーはこの要件を満たしていませんでしたが、画像ネットワーク用の畳み込みニューラル ネットワーク、テキスト ネットワーク用のリカレント ニューラル ネットワーク、およびテキスト ネットワーク用のトランスフォーマーなど、多くの印象的なモデルを生み出しました。画像、テキスト、音声、ビデオ、タンパク質構造など。
彼らはすでに、囲碁で人間レベルのパフォーマンスを超えたり、X線画像の診断などの実践的なタスクで人間レベルのパフォーマンスに近づいたりするなど、驚くべき成果を上げています。
しかし、常識や論理的推論の観点からは、依然として対処が困難です。
アリストテレスとはどのような「獣」でしょうか? 3 世紀にシリアに住んでいたこの哲学者の信奉者であるポルピュリオスは、この質問に答える論理的な方法を考え出しました。
彼は、アリストテレスが提案した「存在のカテゴリー」を一般的なものから特殊なものまで組み合わせ、アリストテレスを各カテゴリーに順番に分類しました:
アリストテレス ドッドの存在は、概念的または精神的なものではなく、物質的なものでした。無生物ではなく生物であり、彼の思考は非合理的ではなく合理的でした。
したがって、彼の分類は人間です。
中世の論理学の教師は、このシーケンスを垂直方向の流れ図、つまり初期の意思決定ツリーとして描きました。
ミシガン大学の社会学者ジョン・ソンクイストと経済学者ジェームス・モーガンが、調査回答者をグループ化する際にコンピューターにデシジョン・ツリーを初めて導入した 1963 年に話を進めます。
自動学習アルゴリズム ソフトウェアの出現により、この種の作業は一般的になり、現在では scikit-learn を含むさまざまな機械学習ライブラリでもデシジョン ツリーが使用されています。
このコードは、スタンフォード大学とカリフォルニア大学バークレー校の 4 人の統計学者によって 10 年間かけて開発されました。現在、デシジョン ツリーをゼロから作成することは、機械学習 101 の宿題になっています。
デシジョン ツリーは分類または回帰を実行できます。これはルートからクラウンまで下向きに成長し、意思決定階層の入力例を 2 つ (またはそれ以上) に分類します。
ドイツの医学者で人類学者のヨハン・ブルーメンバッハの話題を考えてみましょう: 1776 年頃、彼は初めてサルと類人猿を区別しました (人間はさておき) それ以前は、サルと類人猿は A 種に分類されていました。
この分類は、尾があるかどうか、胸が狭いか広いか、直立しているかしゃがんでいるか、知能のレベルなど、さまざまな基準によって決まります。訓練された決定木を使用して、各基準を 1 つずつ考慮してそのような動物にラベルを付け、最終的に 2 つの動物のグループを分離します。
人間は広い骨盤、手、食いしばった歯によって類人猿と異なるというブルーメンバッハの結論(後にチャールズ・ダーウィンによって覆された)を踏まえて、類人猿とサルだけでなく分類するために決定木を拡張したい場合、何が起こるか人間を分類すると?
オーストラリアのコンピュータ科学者ジョン ロス クインランは、1986 年に非バイナリ結果をサポートするためにデシジョン ツリーを拡張した ID3 でこれを可能にしました。
2008 年、IEEE 国際データ マイニング会議が計画したデータ マイニング アルゴリズムのトップ 10 のリストでは、C4.5 という名前の拡張絞り込みアルゴリズムがトップにランクされました。
アメリカの統計学者レオ・ブライマンとニュージーランドの統計学者アデル・カトラーは、この特徴を利点に変え、2001 年にランダム フォレスト (ランダム フォレスト) を開発しました。ランダム フォレストは、デシジョン ツリーのコレクションです。各デシジョン ツリーは、異なる、重複する選択例と、最終結果について投票します。
Random Forest とその従属である XGBoost は過学習の傾向が少ないため、最も人気のある機械学習アルゴリズムの 1 つとなっています。
これは、アリストテレス、斑岩、ブルーメンバッハ、ダーウィン、ジェーン グドール、ダイアン 師匠、その他 1,000 人の動物学者を部屋に集めて、分類が最善であることを確認してもらうようなものです。
パーティーで他の人の近くに立っている場合は、K 平均法クラスタリングを使用してグループ化するという共通点がある可能性があります。データポイントのアイデア。
グループが人間の行為によって形成されたものであっても、他の力によって形成されたものであっても、このアルゴリズムはそれらを見つけます。
爆発から発信音まで: アメリカの物理学者スチュアート ロイドは、ベル研究所の象徴的なイノベーション ファクトリーと原爆を発明したマンハッタン計画の卒業生であり、1957 年に初めて K 平均法を提案しました。情報をデジタル信号で配信するためのものでしたが、この著作物は 1982 年まで出版されませんでした。
一方、アメリカの統計学者エドワード・フォーギーは 1965 年に同様の手法を記述し、その別名「ロイド・フォーギー・アルゴリズム」につながりました。
ハブの検索: クラスタを同じ考えを持つ作業グループに分割することを検討してください。室内の参加者の位置と形成するグループの数を考慮すると、K 平均法クラスタリングでは参加者をほぼ同じサイズのグループに分割し、各グループが中心点または重心の周りにクラスター化されます。
トレーニング中、アルゴリズムは最初に k 人をランダムに選択することで k 個の重心を指定します。 (K は手動で選択する必要があり、最適な値を見つけることが場合によっては非常に重要です。) 次に、各人物を最も近い重心に関連付けることにより、k 個のクラスターを成長させます。
クラスターごとに、そのグループに割り当てられたすべての人の平均位置を計算し、その平均位置を新しい重心として割り当てます。新しい重心はそれぞれ人によって占有されるわけではないかもしれませんが、それではどうでしょうか?チョコレートやフォンデュの周りには人が集まります。
新しい重心を計算した後、アルゴリズムは個人を最も近い重心に再割り当てします。次に、新しい重心を計算し、重心 (およびその周囲のグループ) が動かなくなるまでクラスターを調整します。その後、新しいメンバーを正しいクラスターに割り当てるのは簡単です。それらを部屋の所定の位置に配置し、最も近い重心を探します。
事前に警告してください: 最初にランダムに重心が割り当てられたことを考えると、あなたが一緒に過ごしたい愛すべきデータ中心の AI 専門家と同じグループにならない可能性があります。このアルゴリズムは適切に機能しますが、最適な解決策が見つかるとは限りません。
異なる距離: もちろん、クラスター化されたオブジェクト間の距離は大きくする必要はありません。 2 つのベクトル間の任意のメトリックが使用可能です。たとえば、K 平均法クラスタリングでは、パーティー参加者を物理的な距離に基づいてグループ化するのではなく、服装、職業、その他の属性に基づいて分類できます。オンライン ストアは、顧客の好みや行動に基づいて顧客をセグメント化するためにこれを使用し、天文学者は同じ種類の星をグループ化することができます。
データ ポイントの力: このアイデアは、いくつかの注目すべき変化をもたらします:
K-medoids は、特定のクラスター内のデータ ポイントではなく、実際のデータ ポイントを重心として使用します。 平均位置。中心点は、クラスター内のすべての点までの距離を最小にする点です。重心が常にデータ ポイントであるため、この変化は解釈しやすくなります。
ファジー C 平均法クラスタリングを使用すると、データ ポイントがさまざまな程度で複数のクラスターに参加できるようになります。これは、ハード クラスターの割り当てを、重心からの距離に基づいたクラスター次数に置き換えます。
n 次元カーニバル: それでも、生の形式のアルゴリズムは依然として広く役立ちます。特に、教師なしアルゴリズムとして、高価なラベル付きデータの収集を必要としないためです。また、使用頻度もますます高まっています。たとえば、scikit-learn を含む機械学習ライブラリは、2002 年に高次元データを非常に迅速に分割できる kd ツリーの追加の恩恵を受けました。
以上が機械学習ツールボックスには 6 つの重要なアルゴリズムが隠されていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。