Rumah  >  Artikel  >  Peranti teknologi  >  Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

WBOY
WBOYke hadapan
2023-04-11 23:40:151721semak imbas

Artikel ini dicetak semula daripada akaun awam WeChat "Hidup dalam Era Maklumat" Pengarang hidup dalam era maklumat. Untuk mencetak semula artikel ini, sila hubungi akaun awam Living in the Information Age.

Dalam pembelajaran mesin, konsep asas ialah cara menilai perbezaan antara dua sampel, supaya dapat menilai persamaan dan maklumat kategori antara kedua-dua sampel. Ukuran untuk menilai persamaan ini ialah jarak antara dua sampel dalam ruang ciri.

Terdapat banyak kaedah pengukuran berdasarkan ciri data yang berbeza. Secara umumnya, untuk dua sampel data x, y, takrifkan fungsi d(x, y) Jika ia ditakrifkan sebagai jarak antara dua sampel, maka d(x, y) perlu memenuhi sifat asas berikut :

    Bukan negatif: d(x,y)>=0
  • Identiti: d(x,y)=0 ⇔ x=y
  • Simetri: d( x,y) = d(y,x)
  • Ketaksamaan segitiga: d(x,y)
Secara umumnya, ukuran jarak biasa termasuk: jarak antara titik dalam ruang, jarak antara rentetan, persamaan set dan jarak antara pembolehubah/pengedaran konsep.

Hari ini kami akan memperkenalkan jarak antara titik yang paling biasa digunakan di angkasa lepas.

Jarak antara titik dalam ruang termasuk jenis berikut:

1 Euclidean Distance (Ecllidean Distance)

Tidak syak lagi, Euclidean. jarak ialah jarak yang paling dikenali oleh orang Ia adalah jarak garis lurus antara dua titik. Pelajar yang telah mempelajari matematik sekolah menengah rendah semua tahu cara mengira jarak antara dua titik dalam ruang dua dimensi dalam sistem koordinat Cartesan

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

The formula pengiraan ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Jarak Euclidean yang dilanjutkan ke ruang N-dimensi ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

2 Manhattan Distance

Jarak Manhattan juga dipanggil jarak teksi. Konsepnya berasal dari banyak blok mendatar dan menegak di Manhattan, New York macam kejiranan, kalau pemandu teksi nak berjalan dari satu titik ke satu titik, tak guna kira jarak garis lurus, sebab teksi tak boleh terbang atas bangunan. Oleh itu, jarak ini biasanya dikira dengan menolak dan menambah jarak timur-barat dan utara-selatan masing-masing dua titik Ini adalah jarak sebenar yang perlu dilalui oleh teksi.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Seperti yang ditunjukkan dalam rajah, garisan merah dan garisan kuning ialah jarak Manhattan dari dua laluan berbeza. Secara matematik, kaedah pengiraan jarak Manhattan dalam ruang dua dimensi adalah seperti berikut:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

3. Jarak Chebyshev (Jarak Chebyshev)

Jarak Chebyshev ditakrifkan sebagai nilai maksimum perbezaan dalam nilai koordinat antara dua titik.


Contoh yang paling intuitif ialah raja dalam catur, kerana ia boleh bergerak ke sisi, lurus, dan menyerong, tetapi ia hanya boleh bergerak satu petak pada satu masa, jadi semuanya Jarak Bishev ialah jarak minimum yang dia perlukan untuk berjalan ke grid lain.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

4 Jarak Minkowski

Jarak Min itu sendiri bukanlah jarak yang istimewa, tetapi satu formula. yang menggabungkan berbilang jarak (jarak Manhattan, jarak Euclidean, jarak Chebyshev).

Ia ditakrifkan sebagai, untuk dua pembolehubah n-dimensi, jarak Min ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Apabila p=1, anda boleh melihat

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Pada masa ini ialah jarak Manhattan.

Apabila p=2, anda boleh melihat bahawa

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

ialah jarak Euclidean pada masa ini.

Apabila p=∞, anda dapat melihat bahawa

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

ialah jarak Chebyshev pada masa ini.

5 Jarak Euclidean Piawai

Jarak Euclidean boleh mengukur jarak garis lurus antara dua titik, tetapi dalam sesetengah kes, ia mungkin dipengaruhi oleh yang berbeza unit. Sebagai contoh, jika terdapat perbezaan ketinggian 5 mm dan perbezaan berat 5 kg pada masa yang sama, persepsi mungkin berbeza sama sekali. Jika kita ingin mengelompokkan tiga model, atribut masing-masing adalah seperti berikut:

A: 65000000 mg (iaitu 65 kg), 1.74 meter

B: 60000000 mg (iaitu 60 kg) , 1.70 meter

C: 65,000,000 miligram (iaitu 65 kilogram), 1.40 meter

Menurut pemahaman biasa kami, A dan B adalah model dengan angka yang lebih baik dan harus dikelaskan dalam kategori yang sama. Walau bagaimanapun, apabila benar-benar mengira dalam unit di atas, didapati perbezaan antara A dan B adalah lebih besar daripada perbezaan antara A dan C. Sebabnya ialah unit ukuran atribut yang berbeza membawa kepada perbezaan berangka yang berlebihan. Jika data yang sama ditukar kepada unit lain.

A: 65kg, 174cm

B: 60kg, 170cm

C: 65kg, 140cm

Kemudian kita akan dapat hasilnya. fikiran ialah A dan B dikelaskan dalam kategori yang sama. Oleh itu, untuk mengelakkan perbezaan tersebut disebabkan oleh unit ukuran yang berbeza, kita perlu memperkenalkan jarak Euclidean piawai. Dalam pengiraan jarak ini, setiap komponen dinormalkan kepada selang dengan min dan varians yang sama.

Anggapkan bahawa min (min) bagi set sampel X ialah m dan sisihan piawai (sisihan piawai) ialah s, maka "pembolehubah piawai" bagi 🎜>

Di mana, piawai nilai = (nilai sebelum normalisasi - min komponen) / sisihan piawai komponen. Selepas terbitan ringkas, kita boleh mendapatkan formula jarak Euclidean piawai antara dua vektor n-dimensi:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Jika timbal balik varians dianggap sebagai A berat, formula ini boleh dianggap sebagai jarak Euclidean berwajaran. Melalui operasi ini, kami secara berkesan menghapuskan perbezaan antara unit berat yang berbeza.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

6 Jarak Lance dan Williams

Jarak Lans juga dipanggil jarak Canberra,

Ia ialah penunjuk tanpa dimensi, yang mengatasi kelemahan jarak Min yang berkaitan dengan dimensi setiap penunjuk, dan tidak sensitif kepada nilai tunggal yang besar, menjadikannya amat sesuai untuk menjadualkan data bias. Tetapi jarak ini juga tidak mengambil kira perkaitan antara pembolehubah. Oleh itu, jika anda perlu mempertimbangkan korelasi antara pembolehubah, anda masih memerlukan jarak Mahalanobis.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

7. Jarak Mahalanobis

Selepas menormalkan nilai, adakah tiada masalah? Tak semestinya. Sebagai contoh, dalam contoh satu dimensi, jika terdapat dua kelas, satu kelas mempunyai min 0 dan varians 0.1, dan kelas lain mempunyai min 5 dan varians 5. Jadi jika mata dengan nilai 2 harus tergolong dalam kategori yang mana? Kami secara intuitif berfikir bahawa ia mestilah kategori kedua, kerana kategori pertama jelas tidak mungkin mencapai 2 secara berangka. Tetapi sebenarnya, jika dikira dari jauh, nombor 2 mesti tergolong dalam kategori pertama.

Jadi, dalam dimensi dengan varians yang kecil, perbezaan yang kecil mungkin menjadi outlier. Sebagai contoh, dalam rajah di bawah, A dan B berada pada jarak yang sama dari asal, tetapi oleh kerana keseluruhan sampel diedarkan di sepanjang paksi mendatar, titik B lebih berkemungkinan menjadi titik dalam sampel, manakala titik A lebih berkemungkinan menjadi outlier.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Masalah juga mungkin berlaku apabila dimensi tidak diedarkan secara bebas dan sama Contohnya, titik A dan titik B dalam rajah di bawah ialah Asal-usul adalah sama jauh, tetapi taburan utama adalah serupa dengan f(x)=x, jadi A lebih seperti outlier.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Oleh itu, kita dapat lihat dalam kes ini, jarak Euclidean yang diseragamkan juga akan menghadapi masalah, jadi kita perlu memperkenalkan jarak Mahalanobis.

Jarak Mahalanobis memutar pembolehubah mengikut komponen utama untuk menjadikan dimensi bebas antara satu sama lain, dan kemudian menyeragamkannya untuk menjadikan dimensi teragih sama rata. Komponen utama ialah arah vektor eigen, jadi anda hanya perlu berputar mengikut arah vektor eigen, dan kemudian skala masa nilai eigen. Sebagai contoh, selepas imej di atas diubah, keputusan berikut akan diperoleh:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Dapat dilihat bahawa outlier telah berjaya dipisahkan.

Jarak Mahalanobis telah dicadangkan oleh ahli matematik India Mahalanobis dan mewakili jarak kovarians data. Ia adalah kaedah yang cekap untuk mengira persamaan dua set sampel yang tidak diketahui.

Untuk vektor multivariate

dengan min Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

dan matriks kovarians Σ Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

, jarak Mahalanobisnya (jarak Malaysia bagi satu titik data) ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

untuk Darjah perbezaan antara dua pembolehubah rawak X dan Y yang mematuhi taburan yang sama dan matriks kovariansnya ialah Σ Jarak Mahalanobis antara titik data x dan y ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

<.>Jika matriks kovarian ialah matriks identiti, maka jarak Mahalanobis dipermudahkan kepada jarak Euclidean. Jika matriks kovarians ialah matriks pepenjuru, maka jarak Mahalanobis menjadi jarak Euclidean piawai.

8. Jarak Kosinus

Seperti namanya, jarak kosinus berasal daripada kosinus sudut dalam geometri, yang boleh digunakan untuk mengukur perbezaan arah daripada dua vektor dan bukannya jarak atau panjang. Apabila nilai kosinus ialah 0, kedua-dua vektor adalah ortogon dan sudut yang disertakan ialah 90 darjah. Semakin kecil sudut, semakin hampir nilai kosinus kepada 1, dan arahnya lebih konsisten.

Dalam ruang N-dimensi, jarak kosinus ialah:


Perlu dinyatakan bahawa jarak kosinus tidak memenuhi ketaksamaan segitiga.

9. Jarak Geodesik

Jarak geodesik pada asalnya merujuk kepada jarak terpendek antara permukaan sfera. Apabila ruang ciri ialah satah, jarak geodesik ialah jarak Euclidean. Dalam geometri bukan Euclidean, garis terpendek antara dua titik pada sfera ialah lengkok besar yang menghubungkan dua titik Sisi segi tiga dan poligon pada sfera juga terdiri daripada lengkok besar ini.

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

10. Jarak Bray Curtis

Jarak Bray Curtis digunakan terutamanya dalam Botani, Ekologi dan Sains Alam Sekitar, ia boleh digunakan untuk mengira perbezaan antara sampel. Formulanya ialah:

Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang

Nilai adalah antara [0, 1].

Atas ialah kandungan terperinci Jarak berangka berdasarkan pembelajaran mesin: jarak antara titik dalam ruang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Artikel sebelumnya:Asas, sempadan dan aplikasi GNNArtikel seterusnya:Asas, sempadan dan aplikasi GNN