Rumah >Peranti teknologi >AI >Mari kita bercakap tentang pengekstrakan pengetahuan Adakah anda telah mempelajarinya?

Mari kita bercakap tentang pengekstrakan pengetahuan Adakah anda telah mempelajarinya?

PHPzke hadapan: 2023-11-13 20:13:02747semak imbas

1. Pengenalan

Pengestrakan pengetahuan biasanya merujuk kepada perlombongan maklumat berstruktur daripada teks tidak berstruktur, seperti tag dan frasa yang mengandungi maklumat semantik yang kaya. Ini digunakan secara meluas dalam senario seperti pemahaman kandungan dan pemahaman produk dalam industri Dengan mengekstrak tag berharga daripada maklumat teks yang dijana pengguna, ia digunakan pada kandungan atau produk

Pengestrakan pengetahuan biasanya disertai dengan pengekstrakan tag atau frasa yang diekstrak. Pengelasan biasanya dimodelkan sebagai tugas pengecaman entiti bernama Tugas pengecaman entiti bernama biasa adalah untuk mengenal pasti komponen entiti yang dinamakan dan mengelaskan komponen ke dalam nama tempat, nama orang, nama organisasi, dll perkataan terbahagi kepada kategori yang disesuaikan dengan medan, seperti siri (Air Force One, Sonic 9), jenama (Nike, Li Ning), jenis (kasut, pakaian, digital), gaya (gaya INS, gaya retro, gaya Nordic), dll.

Untuk kemudahan penerangan, tag atau frasa yang kaya maklumat akan secara kolektif dirujuk sebagai perkataan tag di bawah

2. Klasifikasi pengekstrakan pengetahuan

Artikel ini memperkenalkan kaedah klasik pengekstrakan pengetahuan dari dua perspektif: perlombongan perkataan tag dan klasifikasi perkataan tag. Kaedah perlombongan perkataan tag dibahagikan kepada kaedah tanpa seliaan, kaedah seliaan dan kaedah penyeliaan jauh, seperti yang ditunjukkan dalam Rajah 1. Perlombongan perkataan teg memilih perkataan teg berskor tinggi melalui dua langkah: perlombongan perkataan calon dan pemarkahan frasa Tag biasanya memodelkan pengekstrakan dan pengelasan perkataan teg, dan mengubahnya menjadi tugasan anotasi urutan untuk pengecaman entiti yang dinamakan.

Mari kita bercakap tentang pengekstrakan pengetahuan Adakah anda telah mempelajarinya? Figure 1 Klasifikasi Kaedah Pengekstrakan Pengetahuan

3. Tag Word Mining

Unsupervised Method

Statistics berasaskan Kaedah

First Dokumen atau Segmen perkataan melakukan n- gabungan gram sebagai perkataan calon, dan kemudian skor perkataan calon berdasarkan ciri statistik.

TF-IDF (Kekerapan Jangka-Kekerapan Dokumen Songsang): Kira skor TF-IDF setiap perkataan Semakin tinggi skor, semakin besar jumlah maklumat yang terkandung.

Kandungan yang ditulis semula: Kaedah pengiraan: tfidf(t, d, D) = tf(t, d) * idf(t, D), dengan tf(t, d) = log(1 + freq(t) , d )), freq(t,d) mewakili bilangan kali perkataan calon t muncul dalam dokumen semasa d, idf(t,D) = log(N/count(d∈D:t∈D)) mewakili perkataan calon t Dalam berapa banyak dokumen ia digunakan untuk menunjukkan kelangkaan sesuatu perkataan Jika perkataan hanya muncul dalam satu dokumen, ini bermakna perkataan itu jarang dan mempunyai maklumat yang lebih kaya Dalam senario perniagaan tertentu, alat luaran boleh digunakan untuk menganalisis perkataan calon Mula-mula menjalankan satu pusingan saringan, seperti menggunakan penanda sebahagian daripada pertuturan untuk menapis kata nama.

YAKE[1]: Lima ciri ditakrifkan untuk menangkap ciri kata kunci, yang digabungkan secara heuristik untuk memberikan markah kepada setiap kata kunci. Semakin rendah skor, semakin penting kata kunci itu. 1) Huruf besar: Istilah dalam huruf besar (kecuali perkataan permulaan setiap ayat) adalah lebih penting daripada Istilah dalam huruf kecil, sepadan dengan bilangan perkataan tebal dalam bahasa Cina 2) Kedudukan perkataan: setiap perenggan teks Beberapa perkataan di permulaan adalah lebih penting daripada perkataan berikutnya; berlaku, semakin rendah kepentingan perkataan; 5) Bilangan kali perkataan muncul dalam ayat yang berbeza, perkataan muncul dalam lebih banyak ayat, semakin penting ia.

Model Berasaskan Grafik

TextRank[2]: Mula-mula lakukan pembahagian perkataan dan penandaan sebahagian daripada pertuturan pada teks, dan tapis kata henti, hanya tinggalkan perkataan dengan bahagian-speech yang ditentukan untuk membina graf. Setiap nod ialah perkataan, dan tepi mewakili hubungan antara perkataan, yang dibina dengan mentakrifkan kejadian bersama perkataan dalam tetingkap bergerak dengan saiz yang telah ditetapkan. Gunakan PageRank untuk mengemas kini berat nod sehingga penumpuan; mengisih pemberat nod dalam susunan terbalik untuk mendapatkan kata kunci yang paling penting sebagai kata kunci calon, dan jika ia membentuk frasa bersebelahan, gabungkan mereka menjadi berbilang Kata Kunci frasa untuk frasa. .

EmbedRank[3]: Pilih perkataan calon melalui pembahagian perkataan dan penandaan sebahagian daripada pertuturan, gunakan Doc2Vec dan Sent2vec yang telah terlatih sebagai perwakilan vektor bagi perkataan dan dokumen calon, dan hitung persamaan kosinus kepada kata kedudukan calon. Begitu juga, KeyBERT[4] menggantikan perwakilan vektor EmbedRank dengan BERT.

Kaedah penyeliaan

Kaedah yang diselia mengira sama ada perkataan calon tergolong dalam perkataan label dengan melatih model.

Perkataan calon skrin pertama dan kemudian gunakan pengelasan perkataan tag: model klasik KEA[5] menggunakan Naive Bayes sebagai pengelas untuk menjaringkan perkataan calon N-gram pada empat ciri yang direka bentuk.
Latihan bersama saringan kata calon dan pengecaman perkataan label: BLING-KPE[6] mengambil ayat asal sebagai input, menggunakan CNN dan Transformer untuk mengekod frasa N-gram ayat tersebut dan mengira sama ada frasa ialah label Kebarangkalian perkataan, sama ada perkataan label, dilabel secara manual Label. BERT-KPE[7] Berdasarkan idea BLING-KPE, ELMO digantikan dengan BERT untuk mewakili vektor ayat dengan lebih baik.

Mari kita bercakap tentang pengekstrakan pengetahuan Adakah anda telah mempelajarinya? Rajah 2 Struktur model BLING-KPE

#🎜#
#🎜##🎜🎜🎜🎜 # Kaedah Pengawasan Jauh

AutoFrasa

#🎜 seliaan kaedah Wakilnya ialah AutoFrasa [10], yang digunakan secara meluas dalam perlombongan perkataan tag dalam industri. AutoFrasa menggunakan pangkalan pengetahuan berkualiti tinggi sedia ada untuk menjalankan latihan penyeliaan jauh untuk mengelakkan anotasi manual.

Dalam artikel ini, kami mentakrifkan frasa berkualiti tinggi sebagai perkataan dengan semantik lengkap, apabila empat syarat berikut dipenuhi pada masa yang sama

Popularit: Kekerapan kejadian dalam dokumen adalah cukup tinggi; #

Bermaklumat: Terdapat maklumat Kuantiti, penunjuk yang jelas, seperti "ini" adalah contoh negatif tanpa maklumat

Kelengkapan: Frasa dan subfrasanya mesti mempunyai kesempurnaan.
#🎜🎜 #Proses perlombongan tag AutoFrasa ditunjukkan dalam Rajah 3. Pertama, kami menggunakan penandaan sebahagian daripada pertuturan untuk menapis perkataan N-gram frekuensi tinggi sebagai calon. Kemudian, kami mengklasifikasikan perkataan calon melalui pengawasan jauh. Akhir sekali, kami menggunakan empat syarat di atas untuk menapis frasa berkualiti tinggi (anggaran semula kualiti frasa)
Rajah 3 Proses perlombongan teg AutoFrasa

Dapatkan frasa berkualiti tinggi daripada pangkalan pengetahuan luaran sebagai Kumpulan Positif, dan frasa lain sebagai contoh negatif Menurut statistik percubaan kertas itu, terdapat 10% frasa berkualiti tinggi dalam kumpulan contoh negatif. kerana ia tidak diberikan kepada contoh negatif dalam pangkalan pengetahuan , maka kertas itu menggunakan pengelas ensembel hutan rawak yang ditunjukkan dalam Rajah 4 untuk mengurangkan kesan hingar pada pengelasan. Dalam aplikasi industri, latihan pengelas juga boleh menggunakan kaedah dua klasifikasi tugas perhubungan antara ayat berdasarkan model pra-latihan BERT [13].

Mari kita bercakap tentang pengekstrakan pengetahuan Adakah anda telah mempelajarinya? Rajah 4 Kaedah pengelasan kata teg AutoFrasa