Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Lukis aksara dalam teks menggunakan Python dan Matplotlib

Lukis aksara dalam teks menggunakan Python dan Matplotlib

王林
王林ke hadapan
2023-04-29 19:31:05913semak imbas

Tujuan artikel ini adalah untuk membantu anda mula merancang data dalam python. Kami akan mencipta carta bar untuk memplot kekerapan aksara dalam fail teks yang diberikan. Dalam kes ini, fail teks mengandungi kandungan daripada The Great Gatsby.

使用 Python 和 Matplotlib 在文本中绘制字符

Langkah 1: Cipta persekitaran maya anda

Persekitaran untuk projek ini akan menjadi lebih kecil. Persekitaran maya membolehkan anda menambah kefungsian tambahan pada ruang kerja anda tanpa menjejaskan seluruh komputer anda!

Buat direktori dan bukanya dalam editor kod dan terminal (tempat anda menjalankan arahan).

Mari jalankan:

$ python3 -m venv venv
$ source venv/bin/activate

Kami boleh memasang kebergantungan yang diperlukan

$ pip3 install matplotlib

Kami juga akan mencipta dua fail, read.txt dan wordcount.py.

Kami akan menggunakan wordcount.py untuk menganalisis teks dalam read.txt.

Langkah 2: Baca teks

Kita boleh mulakan dengan agak mudah,

import matplotlib.pyplot as plt # plot
from collections import OrderedDict # this will be used for sorting later

file = open('read.txt')
text = file.read()
file.close()
  • Pertama, ia mengimport pustaka lukisan dan pengisihan kami
  • Kedua , kami menggunakan fungsi terbuka terbina dalam, yang membolehkan kami membuka fail untuk membaca dan menulis
  • Kemudian kami membaca teks di dalam fail dan menyimpannya ke dalam pembolehubah teks
  • Akhir sekali, kami Tutup fail kerana kami tidak lagi menggunakannya

Itu sahaja yang kami perlukan untuk "membaca" fail dan menyimpan kandungan dalam pembolehubah.

Langkah 3: Analisis Aksara

Cara terbaik kita boleh menjejaki aksara ialah menggunakan kamus python (dipanggil peta cincang dalam bahasa pengaturcaraan lain).

Kamus ialah cara yang sangat berguna untuk menyimpan data. Sama seperti kamus sebenar, ia akan mempunyai senarai "perkataan" yang boleh anda lihat untuk melihat definisi.

Dalam pengaturcaraan, konsep ini digeneralisasikan kepada pasangan "kunci/nilai". Ini bermakna kita boleh menyediakan kamus dan apabila saya meminta kamus untuk "a" ia akan mengembalikan jumlah bilangan kejadian "a".

Jadi mari kod!

charDict = {} # dictionaries are defined by curly braces
def count_letter(character):
character = character.lower()
if character.isspace():
return
if character in charDict:
charDict[character] = charDict[character] + 1
else:
charDict[character] = 1

# loop through text
for i in text:
count_letter(i)

charDict = OrderedDict(sorted(charDict.items()))

Mari kita semak semula perkara yang berlaku di sini.

  • Mula-mula kita mentakrifkan kamus kosong
  • Seterusnya kita menggunakan kata kunci def untuk mentakrifkan fungsi. Fungsi ini mengambil pembolehubah "char" dan menyemak sama ada ia adalah ruang (ruang, tab, baris baharu). Anda boleh menambah kriteria lain pada pilihan anda, seperti isalpha() untuk menentukan sama ada aksara itu huruf
  • dan kemudian semak sama ada ia sudah ada dalam kamus. Jika ia berada dalam kamus, ia menukar nilai kepada nilai sebelumnya tambah 1 (kerana kita mengira aksara ini), jika tidak ia menambah entri baharu dalam kamus dengan kiraan awal 1
  • dan kemudian kita iterate over Untuk setiap aksara dalam pembolehubah teks, di mana "i" mewakili aksara individu, kami menyimpan dan menjalankan fungsi kami untuk mengira mereka
  • Akhir sekali, kami menggunakan import OrderdedDict untuk mengisih kamus mengikut abjad

Langkah 4: Lukiskannya!

Sekarang setelah set data kami dicipta, mari susunkannya ke dalam paksi dan plotkannya!

Kami akan membuat senarai untuk mewakili setiap paksi

num_list = []
char_list = []

Senarai ini sepadan dengan setiap other , jadi jika item 1 dalam char_list ialah "a", item 1 dalam num_list akan menjadi kekerapan yang sepadan. Mari kita mengekod itu juga.

char_list = [] # character
num_list = [] # frequency
# create x and y axes
for x,y in charDict.items():
char_list.append(x)
num_list.append(y)

Kami menggunakan dua pembolehubah untuk menggelungkan pasangan kunci/nilai dalam kamus yang kami buat dan kemudian menambahkannya pada senarai data kami.

Akhir sekali mari buat dan simpan carta bar ini menggunakan matplotlib.

fig = plt.figure() # create a new figure
ax = fig.add_subplot() # create a new bar graph within the figure
fig.canvas.manager.set_window_title('The Great Gatsby') # title of window
ax.bar(char_list, num_list) # add the data to the graph
plt.savefig('chars.png') # download an image of the bar graph
plt.show() # show the image
  • Mula-mula, kami cipta bentuk baharu. Digambarkan ialah tetingkap keseluruhan
  • Tambah plot pada graf
  • Tambah carta bar menggunakan data yang kami pilih
  • Muat turun imej
  • Paparkan imej

Sudah tiba masanya untuk mengujinya

Jalankan fail anda menggunakan kod di bawah dan bersedia untuk keputusan kami!

$ python3 wordcount.py

使用 Python 和 Matplotlib 在文本中绘制字符

Jadi untuk menjawab soalan yang saya ajukan pada permulaan post ini, huruf e digunakan lebih 25,000 kali dalam The Great Gatsby! Wah!

Kesimpulan

Pada akhir artikel ini, saya harap anda mendapat pemahaman tentang matplotlib dan sains data.

Atas ialah kandungan terperinci Lukis aksara dalam teks menggunakan Python dan Matplotlib. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam