Pengekodan Label dalam ML

王林
王林asal
2024-08-23 06:01:081283semak imbas

Pengekodan Label ialah salah satu teknik yang paling banyak digunakan dalam pembelajaran mesin. Ia digunakan untuk menukar data kategori dalam bentuk berangka. Jadi, data boleh dimuatkan ke dalam model.

Biarlah kami memahami sebab kami menggunakan Pengekodan Label. Bayangkan mempunyai data, mengandungi lajur penting dalam bentuk rentetan. Tetapi, anda tidak boleh memuatkan data ini dalam model, kerana pemodelan hanya berfungsi pada data berangka, apa yang kita lakukan? Berikut ialah teknik menyelamatkan nyawa yang dinilai pada langkah prapemprosesan apabila kami menyediakan data untuk dipasang, iaitu Pengekodan Label.

Kami akan menggunakan set data iris daripada pustaka Scikit-Learn, untuk memahami kerja Pengekod Label. Pastikan anda memasang perpustakaan berikut.

pandas
scikit-learn

Untuk memasang sebagai perpustakaan, jalankan arahan berikut:

$ python install -U pandas scikit-learn

Sekarang buka Buku Nota Google Colab dan selami pengekodan dan pembelajaran Pengekod Label.

Jom Kod

  • Mulakan dengan mengimport perpustakaan berikut:
import pandas as pd
from sklearn import preprocessing
  • Import set data iris dan mulakannya untuk kegunaan:
from sklearn.datasets import load_iris
iris = load_iris()
  • Sekarang, kita perlu memilih data yang kita mahu Enkod, kita akan mengekodkan nama spesies untuk iris.
species = iris.target_names
print(species)

Output:

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')
  • Mari kita nyatakan kelas LabelEncoder daripada prapemprosesan:
label_encoder = preprocessing.LabelEncoder()
  • Kini, kami bersedia untuk memuatkan data menggunakan pengekod label:
label_encoder.fit(species)

Anda akan mengeluarkan seperti ini:

Label Encoding in ML

Jika anda mendapat output ini, anda telah berjaya memasang data. Tetapi, persoalannya ialah bagaimana anda akan mengetahui nilai yang diberikan kepada setiap spesies dan dalam susunan yang mana.

Turutan yang Pengekod Label padan dengan data disimpan dalam atribut kelas_. Pengekodan bermula dari 0 hingga data_length-1.

label_encoder.classes_

Output:

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

Pengekod label akan mengisih data secara automatik dan memulakan pengekodan dari sebelah kiri. Di sini:

setosa -> 0
versicolor -> 1
virginica -> 2
  • Sekarang, mari kita uji data yang dipasang. Kami akan mengubah spesies iris setosa.
label_encoder.transform(['setosa'])

Output: tatasusunan([0])

Sekali lagi, jika anda mengubah specie virginica.

label_encoder.transform(['virginica'])

Output: tatasusunan([2])

Anda juga boleh memasukkan senarai spesies, seperti ["setosa", "virginica"]

Scikit Belajar dokumentasi untuk pengekod label >>>

Atas ialah kandungan terperinci Pengekodan Label dalam ML. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn