Python爬蟲實作取名字的程式碼實例-Python教學-PHP中文網

首頁

後端開發

Python教學

Python爬蟲實作取名字的程式碼實例

Y2J

May 10, 2017 am 11:42 AM

python爬蟲

每個人一生中都會遇到一件事情，在事情出現之前不會關心，但是事情一旦來臨就發現它極其重要，並且需要在很短的時間內做出重大決定，那就是給自己的新生寶寶取個名字。以下這篇文章主要介紹如何利用Python爬蟲為孩子取個好名字，需要的朋友可以參考下。

前言

相信每位家長都有所體會，因為要在孩子出生後兩週內起個名字（需要辦理出生證明了），估計很多人都跟我一樣，剛開始是很慌亂的，雖然感覺漢字非常的多隨便找個字做名字都行，後來才發現真不是隨便的事情，怎麼想都發現不合適，於是到處翻字典、網上搜、翻唐詩宋詞、詩經、甚至武俠小說，然而想了很久得到的名字，往往卻受到家屬的意見和反對，比如不順口、和親戚重名重音等問題，這樣就陷入了重複尋找和否定的循環，越來越混亂。

於是我們再次回到網上各種搜尋，找到很多網上給出的“男寶寶好聽的名字大全”之類的文章，這些文章一下子給出幾百上千個名字，看的眼花撩亂沒辦法使用。而有不少的測名字的網站或者APP，輸入名字能給八字或者五格的評分，這樣的功能感覺還挺好的能給個參考，然而要么我們需要一個個名字的輸入進行測試、要么這些網站或是APP自身的名字很少、要嘛無法滿足我們的需求例如限定字、要嘛就開始收費，到最後也找不到一個好用的。

於是我想做這麼一個程式：

#主要的功能，是給大量名字提供參考，這些名字是結合寶寶的生辰八字算出來的；
自己可以擴充名字庫，例如網路上發現了一批詩經裡的好名字，想看看怎麼樣，加入進去就能用；
可以限定名字的使用字，例如有的家譜有限定，目前是「國」字輩，名字中必須有「國」字；
#名字清單可以給評分，這樣倒排後就可以從高分往低分來看名字；

透過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表，並且該列表已經給出了分數用於參考，以此為基準我們可以挨個琢磨找出心儀的名字。當然如果有新的想法，隨時可以把新的名字加到詞庫裡面，重新計算。

程式的程式碼結構

#程式碼介紹：

/chinese-name-score 程式碼根目錄
/chinese-name-score/main 程式碼目錄
/chinese-name-score/main/dicts 字典文件目錄
/chinese-name-score/main/dicts/names_boys_double.txt 字典文件，男孩的雙字名字
/chinese-name-score/main/dicts/names_boys_single.txt 字典文件，男孩的單字名稱
##/chinese-name-score/ main/dicts/names_girls_single.txt 字典文件，女孩的雙字名稱
/chinese-name-score/main/dicts/names_grils_double.txt 字典文件，女孩的單字名稱
/chinese-name-score/main/outputs 輸出資料目錄
/chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的範例檔案
/chinese-name-score/main/scripts 一些對字典檔案做預處理的腳本
/chinese-name -score/main/scripts/unique_
file_lines.py 設定字典文件，對字典中的名字去重和去空白行
/chinese-name -score/main/sys_config.py 程式的系統配置，包含爬取得目標URL、字典檔案路徑
/chinese-name-score/main/user_config.py 程式的使用者配置，包括寶寶的年月日時分性別等設定
/chinese-name-score/main/get_name_score.py 程式的運行入口

使用程式碼的方法：

如果沒有限定字，就找到字典檔案names_boys_double.txt和names_grils_double.txt，可以在這裡新增自己找到的一些名字列表，按行分割添加在最後即可；
如果有限定字，就找到字典文件names_boys_single.txt和names_girls_single.txt，在這裡添加自己預先中意的單字列表，按行分割加入最後即可；
開啟user_config.py，進行配置，配置項目請見下一節；
#運行腳本get_name_score.py
#
在outputs目錄中，查看自己的產出文件，可以複製到Excel，進行排序等操作；

程序的設定入口

程式的設定如下：

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字，如果配置了该值，则会取用单字字典，否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别，取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting[&#39;year&#39;] = "2017"
# 出生的公历月份
setting[&#39;month&#39;] = "1"
# 出生的公历日子
setting[&#39;day&#39;] = "11"
# 出生的公历小时
setting[&#39;hour&#39;] = "11"
# 出生的公历分钟
setting[&#39;minute&#39;] = "11"
# 结果产出文件名称
setting[&#39;output_fname&#39;] = "names_girls_source_xxx.txt"

根據設定項目setting[「limit_world」] ，系統會自動來決定選用單字字典還是多字字典：

如果設定了該項，例如等於“國”，那麼程式會組合所有的單字為名字用於計算，例如國浩和浩國兩個名字都會計算；
如果不設定該項，保持空字串，則程式只會讀取*_double.txt的雙字字典

程式的原理

這是一個簡單的爬蟲。大家可以打開life.httpcn.com/xingming.asp網站查看，這是一個POST表單，填寫需要的參數，點提交，就會打開一個結果頁面，結果頁面的最下方包含了八字分數和五格分數。

如果想得到分數，就需要做兩件事情，一是爬蟲自動提交表單，獲取結果頁面；二是從結果頁面提取分數；

對於第一件事情，很簡單，urllib2即可實現（程式碼在/chinese-name-score/main/get_name_score.py）：

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()

這裡的params是個參數dict，使用這種方式，就進行了POST帶資料的提交，然後從content得到了結果數據。

params的參數設定如下：

 params = {}
 
 # 日期类型，0表示公历，1表示农历
 params[&#39;data_type&#39;] = "0"
 params[&#39;year&#39;] = "%s" % str(user_config.setting["year"])
 params[&#39;month&#39;] = "%s" % str(user_config.setting["month"])
 params[&#39;day&#39;] = "%s" % str(user_config.setting["day"])
 params[&#39;hour&#39;] = "%s" % str(user_config.setting["hour"])
 params[&#39;minute&#39;] = "%s" % str(user_config.setting["minute"])
 params[&#39;pid&#39;] = "%s" % str(user_config.setting["area_province"])
 params[&#39;cid&#39;] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行，0表示自动分析，1表示自定喜用神
 params[&#39;wxxy&#39;] = "0"
 params[&#39;xing&#39;] = "%s" % (user_config.setting["name_prefix"])
 params[&#39;ming&#39;] = name_postfix
 # 表示女，1表示男
 if user_config.setting["sex"] == "男":
  params[&#39;sex&#39;] = "1"
 else:
  params[&#39;sex&#39;] = "0"
  
 params[&#39;act&#39;] = "submit"
 params[&#39;isbz&#39;] = "1"

第二件事情，就是從網頁中提取所需的分數，我們可以使用BeautifulSoup4來實現，其語法也很簡單：

 soup = BeautifulSoup(content, &#39;html.parser&#39;, from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cont = node.get_text()
  if u&#39;姓名五格评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data[&#39;wuge_score&#39;] = name_wuge.next_sibling.b.get_text()
  
  if u&#39;姓名八字评分&#39; in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data[&#39;bazi_score&#39;] = name_wuge.next_sibling.b.get_text()

透過此方法，就能對HTML解析，提取八字和五格的分數。

運行結果範例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

有了這些分數，我們就可以進行排序，是一個很實用的參考資料。

友誼提示