Rumah >pembangunan bahagian belakang >Tutorial Python >Memperkenalkan Toolkit Bahasa Alam (NLTK)
pemprosesan bahasa semulajadi (NLP) adalah pemprosesan automatik atau separa automatik bahasa manusia. NLP berkait rapat dengan linguistik dan mempunyai hubungan dengan penyelidikan dalam sains kognitif, psikologi, fisiologi, dan matematik. Dalam domain sains komputer khususnya, NLP berkaitan dengan teknik pengkompil, teori bahasa formal, interaksi manusia-komputer, pembelajaran mesin, dan teorem. Soalan Quora ini menunjukkan kelebihan NLP yang berbeza. Sebelum kita melihat bagaimana untuk bekerja dengan platform ini, beritahu saya terlebih dahulu memberitahu anda apa yang NLTK. Platform ini pada asalnya dikeluarkan oleh Steven Bird dan Edward Loper bersempena dengan kursus linguistik pengiraan di University of Pennsylvania pada tahun 2001. Terdapat buku yang disertakan untuk platform yang dipanggil Pemprosesan Bahasa Alam dengan Python. Ia akan menjadi menyeronokkan!
Memasang NLTK sangat mudah. Saya menggunakan windows 10, jadi dalam command prompt saya (sent_tokenize ()
kaedah.
Bagaimana kita boleh mengeluarkan kata -kata berhenti dari teks kita sendiri? Contoh di bawah menunjukkan bagaimana kita boleh melaksanakan tugas ini:
output skrip di atas adalah:
jadi apa
word_tokenize () <pre class="brush:php;toolbar:false">"Python is a very high-level programming language. Python is interpreted."<br></pre> fungsi adalah: <p></p>
<blockquote> tokenize rentetan untuk memisahkan tanda baca selain daripada tempoh </blockquote> <h3> mencari </h3> <p> katakan kami mempunyai fail teks berikut (muat turun fail teks dari Dropbox). Kami ingin mencari (cari) perkataan <code>language
. Kita hanya boleh melakukan ini menggunakan platform NLTK seperti berikut: "Python is a very high-level programming language. Python is interpreted."<br>
di mana anda akan mendapat output berikut:
Notis bahawa concordance()
mengembalikan setiap kejadian perkataan language
, sebagai tambahan kepada beberapa konteks. Sebelum itu, seperti yang ditunjukkan dalam skrip di atas, kami memaksimumkan fail baca dan kemudian menukarnya menjadi objek nltk.Text
.
from nltk.tokenize import word_tokenize
text = "Python is a very high-level programming language. Python is interpreted."<br>print(word_tokenize(text))
chcp 65001
Seperti yang telah kita lihat dalam tutorial ini, platform NLTK memberikan kita alat yang berkuasa untuk bekerja dengan pemprosesan bahasa semulajadi (NLP). Saya hanya menggaru permukaan dalam tutorial ini. Jika anda ingin pergi lebih jauh menggunakan NLTK untuk tugas NLP yang berbeza, anda boleh merujuk kepada buku yang disertakan dengan NLTK: Pemprosesan Bahasa Semula Jadi dengan Python. Esther adalah pemaju dan penulis perisian untuk Envato Tuts.
Atas ialah kandungan terperinci Memperkenalkan Toolkit Bahasa Alam (NLTK). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!