Rumah > Soal Jawab > teks badan
Sebagai contoh, gunakan ungkapan biasa untuk memadankan pinyin shá.
ps: Apa yang saya katakan sebelum ini mungkin tidak jelas saya menggunakan perkataan "sebagai contoh", yang bermaksud terdapat pinyin dalam teks yang akan diproses, tetapi saya tidak tahu apa itu pinyin khusus keluar pinyin ini. Teks yang akan diproses akan mempunyai simbol Cina dan pinyin (,.: dan seumpamanya), jadi sila jangan jawab soalan seperti re.search(u'shá',text)
Ia perlu biasa, bukan rentetan tetap yang mudah. . .
巴扎黑2017-05-27 17:41:30
import re
regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b')
text = "Thǐs ís à pìnyin abóut shá"
m = regex.findall(text)
print(m)
Hasil padanan:
['ís', 'à', 'pìnyin', 'abóut', 'shá']
Thǐs pertama tidak dipadankan kerana pinyin lalai semuanya huruf kecil, tidak termasuk huruf besar.
PHPz2017-05-27 17:41:30
Adakah anda mahu memadankan semua pinyin yang sah?
Jika ya, anda boleh mencari indeks pinyin kamus dan meletakkan semua pinyin |
bersama-sama. Ia hanya boleh seperti ini, kerana Pinyin tidak ditakrifkan mengikut peraturan biasa atau beberapa peraturan mekanikal lain. Ini sahaja yang boleh anda lakukan jika anda tidak terlepas apa-apa dan tidak mempunyai terlalu banyak, dan tidak banyak juga.
伊谢尔伦2017-05-27 17:41:30
>>> import re
>>> d='shá'
>>> data='This is a pinyin about shá'
>>> re.search(d,data)
<_sre.SRE_Match at 0x404e308>