搜尋

首頁  >  問答  >  主體

正規表示式 - 請問用 Python 如何匹配漢語拼音?

例如用正規表示式配對出 shá 這個拼音。
ps:之前說的可能不明確,我用了「 例如」 兩字哈,就是待處理文本裡有拼音,但是不知道具體拼音是什麼,需要找出這些拼音,待處理文本會有中文、拼音、符號(,。:之類的),所以請不要回答諸如re.search(u'shá',text) 要正則哈,不是簡單固定的字串。 。 。

ringa_leeringa_lee2788 天前1783

全部回覆(3)我來回復

  • 巴扎黑

    巴扎黑2017-05-27 17:41:30

    import re
    regex = re.compile(r'\b[a-z]*[āáǎàōóǒòêēéěèīíǐìūúǔùǖǘǚǜüńňǹɑɡ]+[a-z]*\b')
    text = "Thǐs ís à pìnyin abóut shá"
    m = regex.findall(text)
    print(m)

    配對結果:
    ['ís', 'à', 'pìnyin', 'abóut', 'shá']
    沒有符合第一個Thǐs,因為預設拼音都是小寫,排除了大寫。

    回覆
    0
  • PHPz

    PHPz2017-05-27 17:41:30

    你是要搭配所有合法的拼音嗎?

    如果是,你去找字典的拼音索引,把裡邊的所有拼音全部 | 到一起就可以了。也只能這樣,因為拼音不是根據正則,或者其它某種機械的規則定義出來的。你想不漏又不多就只能這樣了,反正也沒多少個。

    回覆
    0
  • 伊谢尔伦

    伊谢尔伦2017-05-27 17:41:30

    雷雷

    回覆
    0
  • 取消回覆