首頁  >  問答  >  主體

java - 怎么用脚本判断几个连续的中文字符是一个姓名??

冷狐毕军,
高李阳子,
闻人共建,
欧阳新成,
徐姜敏然,
某家公司,
欧阳伟强,
石戴菲子,
朱为准,
徐海峰,
王潇荔,
种亚男,
付义平,
鲁雅萍,
... ...

如上面的例子,怎么用脚本判断他们是一个名字,不是的自动删除所在行!
不限定语言!
我的想法是,把百家姓写入一个文件中,取要识别的中文字符串的第一个字,去匹配百家姓每个姓的第一个字,如果有匹配的,第二步,反过来取这个姓的完整中文字符串,假设这个姓中文字符长度为n,拿去匹配那个要识别的中文串的前n个字符,如果也匹配,默认它就是一个中文姓名!
难实现吗?

阿神阿神2764 天前493

全部回覆(3)我來回復

  • ringa_lee

    ringa_lee2017-04-17 13:49:43

    姓好處理,關鍵是名如何判斷,邏輯比較麻煩,但實現很簡單吧。 。 。 。
    另外,姓不隻隻有一個字的,還有復姓。 。

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-17 13:49:43

    無法判斷。
    我可以給兒子取名叫做
    「怎麼用」、「腳本判」、「斷幾個」、「連續的」、「續的中」、「中文字」…… 完全符合中國法律。

    回覆
    0
  • 黄舟

    黄舟2017-04-17 13:49:43

    你需要 Named Entity Recognizer (NER)
    例如:http://nlp.stanford.edu/software/CRF-NER.shtml 雖然上面寫有 "Chinese models built from the Ontonotes Chinese named entity data" 但不確認效果

    回覆
    0
  • 取消回覆