ホームページ  >  記事  >  テクノロジー周辺機器  >  知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

WBOY
WBOY転載
2023-04-08 14:41:08996ブラウズ

01 バイアスと分散のトレードオフ

これは、機械学習の最も重要な理論の最上位に常にランクされる概念です。機械学習 (ディープ ラーニングを含む) のほぼすべてのアルゴリズムは、バイアスと分散の間で適切なバランスを取るよう努めており、この図は 2 つの間の対立を明確に説明しています。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

02 ジニの不純度とエントロピー

ジニ (均一性の欠如の尺度) とエントロピー (ランダム性の尺度) は両方とも決定です Aツリー内のノードの不純度の尺度。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

これら 2 つの概念については、選択を使用できるようにするために、それらの間の関係を理解することがより重要です。シナリオに適した指標。

ジニ不純物 (係数) は、一般にエントロピーよりも計算が簡単です (エントロピーには対数計算が含まれるため)。

03 適合率と再現率の曲線

適合率と再現率の曲線は、さまざまなしきい値に対する適合率と再現率のトレードオフを示します。曲線の下の面積が大きいことは、高い再現率と高い精度を表します。高い精度は低い誤警報率に関連し、高い再現率は低い誤警報率に関係します。

これは、ニーズに応じて適切なしきい値を選択するのに役立ちます。たとえば、タイプ 1 エラーを減らすことが目標の場合は、高精度を選択する必要がありますが、タイプ 2 エラーを最小限に抑えることが目標の場合は、再現率が高くなるようなしきい値を選択する必要があります。 知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

  • #精度の分母は変数です。つまり、偽陽性 (陽性として分類された陰性サンプル) は毎回変わります。
  • リコール分母は定数です。これは真の値の合計数を表すため、常に同じ値を保ちます。

これが、以下のグラフで精度が最後に波を示しているのに対し、再現率は常に横ばいである理由です。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

04 ROC 曲線

ROC 曲線は、すべての分類しきい値での分類モデルのパフォーマンスを示すグラフです。

この曲線は 2 つのパラメーターをプロットします:

真阳性率<br>误报率

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

この曲線の下の面積 (AUC と呼ばれる) もパフォーマンス メトリックとして使用できます。 AUC が高いほど、モデルは優れています。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

05 弯头曲线

用于K-means算法中最优簇数的选择。WCSS(簇内平方和)是给定簇中每个点与质心之间的平方距离之和。当我们用 K(簇数)值绘制 WCSS 时,该图看起来像一个肘部(弯头)。

随着聚类数量的增加,WCSS 值将开始下降。K = 1时WCSS值最大

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

06三块地块

它帮助我们在对高维数据执行主成分分析后,可视化每个主成分解释的变异百分比。为了选择正确数量的主成分来考虑我们的模型,我们通常会绘制此图并选择能够为我们提供足够好的总体方差百分比的值。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

07线性和逻辑回归曲线

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

对于线性可分数据,我们可以进行线性回归或逻辑回归,二者都可以作为决策边界曲线/线。但是,在逻辑回归的情况下,由于通常只有 2 个类别,因此具有线性直线决策边界可能不起作用,在一条直线上值从低到高非常均匀地上升,因为它不够陡峭在值突然上升后会得到很多临界的高值或者低值,最终会错误分类。因此,"边界"区域,即概率从高到低转变的区域并不真正存在。所以一般情况下会应用 sigmoid 变换将其转换为 sigmoid 曲线,该曲线在极端情况下是平滑的,在中间几乎是线性的。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

08支持向量机(几何理解)

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

09标准正态分布规则(z-分布)

均值为0,标准差为1的特殊正态分布。知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

经验法则指出,按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。根据该规则,68% 的数据在一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内。10学生T分布T 分布(也称为学生 T 分布)是一系列分布,看起来几乎与正态分布曲线相同,只是更短和更宽/更胖。当我们有较小的样本时,我们使用 T分布而不是正态分布。样本量越大,t 分布越像正态分布。事实上,在 30 个样本之后,T 分布几乎与正态分布完全一样。

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

概要

私たちは、意思決定をしたり、適切なモデルを選択したりするための基礎となる、小さいながらも重要な概念を数多く目にすることがあります。この記事で説明されている重要な概念は、関連する図で表すことができます。これらの概念は非常に重要であり、初めて見たときにその意味を知る必要があります。上記の概念を習得した場合は、次の内容を説明してみてください。画像は次のことを表します:

知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味

以上が知っておくべきデータ サイエンス: 10 の重要な概念 + 22 のチャートの意味の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。