搜尋
首頁後端開發Python教學Python爬蟲實作取名字的程式碼實例
Python爬蟲實作取名字的程式碼實例May 10, 2017 am 11:42 AM
python爬蟲

每個人一生中都會遇到一件事情,在事情出現之前不會關心,但是事情一旦來臨就發現它極其重要,並且需要在很短的時間內做出重大決定,那就是給自己的新生寶寶取個名字。以下這篇文章主要介紹如何利用Python爬蟲為孩子取個好名字,需要的朋友可以參考下。

前言

相信每位家長都有所體會,因為要在孩子出生後兩週內起個名字(需要辦理出生證明了),估計很多人都跟我一樣,剛開始是很慌亂的,雖然感覺漢字非常的多隨便找個字做名字都行,後來才發現真不是隨便的事情,怎麼想都發現不合適,於是到處翻字典、網上搜、翻唐詩宋詞、詩經、甚至武俠小說,然而想了很久得到的名字,往往卻受到家屬的意見和反對,比如不順口、和親戚重名重音等問題,這樣就陷入了重複尋找和否定的循環,越來越混亂。

於是我們再次回到網上各種搜尋,找到很多網上給出的“男寶寶好聽的名字大全”之類的文章,這些文章一下子給出幾百上千個名字,看的眼花撩亂沒辦法使用。而有不少的測名字的網站或者APP,輸入名字能給八字或者五格的評分,這樣的功能感覺還挺好的能給個參考,然而要么我們需要一個個名字的輸入進行測試、要么這些網站或是APP自身的名字很少、要嘛無法滿足我們的需求例如限定字、要嘛就開始收費,到最後也找不到一個好用的。

於是我想做這麼一個程式:

  1. #主要的功能,是給大量名字提供參考,這些名字是結合寶寶的生辰八字算出來的;

  2. 自己可以擴充名字庫,例如網路上發現了一批詩經裡的好名字,想看看怎麼樣,加入進去就能用;

  3. 可以限定名字的使用字,例如有的家譜有限定,目前是「國」字輩,名字中必須有「國」字;

  4. #名字清單可以給評分,這樣倒排後就可以從高分往低分來看名字;

透過這種方式可以得到一份符合自己孩子生辰八字、自己的家譜限制、以及自己喜好的名字列表,並且該列表已經給出了分數用於參考,以此為基準我們可以挨個琢磨找出心儀的名字。當然如果有新的想法,隨時可以把新的名字加到詞庫裡面,重新計算。

程式的程式碼結構

#程式碼介紹:

  • /chinese-name-score 程式碼根目錄

  • /chinese-name-score/main 程式碼目錄

  • /chinese-name-score/main/dicts 字典文件目錄

  • /chinese-name-score/main/dicts/names_boys_double.txt 字典文件,男孩的雙字名字

  • /chinese-name-score/main/dicts/names_boys_single.txt 字典文件,男孩的單字名稱

  • ##/chinese-name-score/ main/dicts/names_girls_single.txt 字典文件,女孩的雙字名稱

  • /chinese-name-score/main/dicts/names_grils_double.txt 字典文件,女孩的單字名稱

  • /chinese-name-score/main/outputs 輸出資料目錄

  • /chinese-name-score/main/outputs/names_girls_source_wxy.txt 輸出的範例檔案

  • /chinese-name-score/main/scripts 一些對字典檔案做預處理的腳本

  • /chinese-name -score/main/scripts/unique_

    file_lines.py 設定字典文件,對字典中的名字去重和去空白行

  • /chinese-name -score/main/sys_config.py 程式的系統配置,包含爬取得目標URL、字典檔案路徑

  • /chinese-name-score/main/user_config.py 程式的使用者配置,包括寶寶的年月日時分性別等設定

  • /chinese-name-score/main/get_name_score.py 程式的運行入口


使用程式碼的方法:

  1. 如果沒有限定字,就找到字典檔案names_boys_double.txt和names_grils_double.txt,可以在這裡新增自己找到的一些名字列表,按行分割添加在最後即可;

  2. 如果有限定字,就找到字典文件names_boys_single.txt和names_girls_single.txt,在這裡添加自己預先中意的單字列表,按行分割加入最後即可;

  3. 開啟user_config.py,進行配置,配置項目請見下一節;

  4. #運行腳本get_name_score.py

    #

  5. 在outputs目錄中,查看自己的產出文件,可以複製到Excel,進行排序等操作;

程序的設定入口

程式的設定如下:

# coding:GB18030
 
"""
在这里写好配置
"""
 
setting = {}
 
# 限定字,如果配置了该值,则会取用单字字典,否则取用多字字典
setting["limit_world"] = "国"
# 姓
setting["name_prefix"] = "李"
# 性别,取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting['year'] = "2017"
# 出生的公历月份
setting['month'] = "1"
# 出生的公历日子
setting['day'] = "11"
# 出生的公历小时
setting['hour'] = "11"
# 出生的公历分钟
setting['minute'] = "11"
# 结果产出文件名称
setting['output_fname'] = "names_girls_source_xxx.txt"

根據設定項目setting[「limit_world」] ,系統會自動來決定選用單字字典還是多字字典:

  1. 如果設定了該項,例如等於“國”,那麼程式會組合所有的單字為名字用於計算,例如國浩和浩國兩個名字都會計算;

  2. 如果不設定該項,保持空字串,則程式只會讀取*_double.txt的雙字字典

程式的原理

這是一個簡單的爬蟲。大家可以打開life.httpcn.com/xingming.asp網站查看,這是一個POST表單,填寫需要的參數,點提交,就會打開一個結果頁面,結果頁面的最下方包含了八字分數和五格分數。

如果想得到分數,就需要做兩件事情,一是爬蟲自動提交表單,獲取結果頁面;二是從結果頁面提取分數;

對於第一件事情,很簡單,urllib2即可實現(程式碼在/chinese-name-score/main/get_name_score.py):

 post_data = urllib.urlencode(params)
 req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
 content = req.read()

這裡的params是個參數dict,使用這種方式,就進行了POST帶資料的提交,然後從content得到了結果數據。

params的參數設定如下:

 params = {}
 
 # 日期类型,0表示公历,1表示农历
 params['data_type'] = "0"
 params['year'] = "%s" % str(user_config.setting["year"])
 params['month'] = "%s" % str(user_config.setting["month"])
 params['day'] = "%s" % str(user_config.setting["day"])
 params['hour'] = "%s" % str(user_config.setting["hour"])
 params['minute'] = "%s" % str(user_config.setting["minute"])
 params['pid'] = "%s" % str(user_config.setting["area_province"])
 params['cid'] = "%s" % str(user_config.setting["area_region"])
 # 喜用五行,0表示自动分析,1表示自定喜用神
 params['wxxy'] = "0"
 params['xing'] = "%s" % (user_config.setting["name_prefix"])
 params['ming'] = name_postfix
 # 表示女,1表示男
 if user_config.setting["sex"] == "男":
  params['sex'] = "1"
 else:
  params['sex'] = "0"
  
 params['act'] = "submit"
 params['isbz'] = "1"

第二件事情,就是從網頁中提取所需的分數,我們可以使用BeautifulSoup4來實現,其語法也很簡單:

 soup = BeautifulSoup(content, 'html.parser', from_encoding="GB18030")
 full_name = get_full_name(name_postfix)
 
 # print soup.find(string=re.compile(u"姓名五格评分"))
 for node in soup.find_all("p", class_="chaxun_b"):
  node_cont = node.get_text()
  if u'姓名五格评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名五格评分"))
   result_data['wuge_score'] = name_wuge.next_sibling.b.get_text()
  
  if u'姓名八字评分' in node_cont:
   name_wuge = node.find(string=re.compile(u"姓名八字评分"))
   result_data['bazi_score'] = name_wuge.next_sibling.b.get_text()

透過此方法,就能對HTML解析,提取八字和五格的分數。

運行結果範例

1/1287 李国锦 姓名八字评分=61.5 姓名五格评分=78.6 总分=140.1
2/1287 李国铁 姓名八字评分=61 姓名五格评分=89.7 总分=150.7
3/1287 李国晶 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
4/1287 李鸣国 姓名八字评分=21 姓名五格评分=90.3 总分=111.3
5/1287 李柔国 姓名八字评分=64 姓名五格评分=78.3 总分=142.3
6/1287 李国经 姓名八字评分=21 姓名五格评分=89.8 总分=110.8
7/1287 李国蒂 姓名八字评分=22 姓名五格评分=87.2 总分=109.2
8/1287 李国登 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
9/1287 李略国 姓名八字评分=21 姓名五格评分=83.7 总分=104.7
10/1287 李国添 姓名八字评分=21 姓名五格评分=81.6 总分=102.6
11/1287 李国天 姓名八字评分=22 姓名五格评分=83.7 总分=105.7
12/1287 李国田 姓名八字评分=22 姓名五格评分=93.7 总分=115.7

有了這些分數,我們就可以進行排序,是一個很實用的參考資料。

友誼提示

  1. 分數跟很多因素有關,例如出生時刻、已經限定的字、限定字的筆畫等因素,這些條件決定了有些名字不會分數高,不要受此影響,找出相對分數高的就可以了;

  2. #目前程式只能抓取一個網站的內容,網址是http ://life.httpcn.com/xingming.asp

  3. 本列表僅供參考,看過一些文章,歷史上很多名人偉人,姓名八字評分都非常低但是都建功立業,名字確實會有些影響但有時朗朗上口就是最好的;

  4. 從本列表中選取名字之後,可以在百度、人人網等地方查查,以防有些負面的人重名、或起這個名字的人太多了爛大街;

  5. 八字分數是中國傳承,五格分數是日本人近代發明的,有時候也可以試試西方的星座取名法,並且奇怪的是八字和五個分數不同網站打分相差很大,更說明了這東西只供參考;

本文的程式碼已上傳github 

#總結

【相關推薦】

1. Python免費視訊教學

##2.

python遇見資料擷取影片教學

3.

Python學習手冊

以上是Python爬蟲實作取名字的程式碼實例的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
详细讲解Python之Seaborn(数据可视化)详细讲解Python之Seaborn(数据可视化)Apr 21, 2022 pm 06:08 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于Seaborn的相关问题,包括了数据可视化处理的散点图、折线图、条形图等等内容,下面一起来看一下,希望对大家有帮助。

详细了解Python进程池与进程锁详细了解Python进程池与进程锁May 10, 2022 pm 06:11 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于进程池与进程锁的相关问题,包括进程池的创建模块,进程池函数等等内容,下面一起来看一下,希望对大家有帮助。

Python自动化实践之筛选简历Python自动化实践之筛选简历Jun 07, 2022 pm 06:59 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于简历筛选的相关问题,包括了定义 ReadDoc 类用以读取 word 文件以及定义 search_word 函数用以筛选的相关内容,下面一起来看一下,希望对大家有帮助。

归纳总结Python标准库归纳总结Python标准库May 03, 2022 am 09:00 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于标准库总结的相关问题,下面一起来看一下,希望对大家有帮助。

Python数据类型详解之字符串、数字Python数据类型详解之字符串、数字Apr 27, 2022 pm 07:27 PM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于数据类型之字符串、数字的相关问题,下面一起来看一下,希望对大家有帮助。

分享10款高效的VSCode插件,总有一款能够惊艳到你!!分享10款高效的VSCode插件,总有一款能够惊艳到你!!Mar 09, 2021 am 10:15 AM

VS Code的确是一款非常热门、有强大用户基础的一款开发工具。本文给大家介绍一下10款高效、好用的插件,能够让原本单薄的VS Code如虎添翼,开发效率顿时提升到一个新的阶段。

详细介绍python的numpy模块详细介绍python的numpy模块May 19, 2022 am 11:43 AM

本篇文章给大家带来了关于Python的相关知识,其中主要介绍了关于numpy模块的相关问题,Numpy是Numerical Python extensions的缩写,字面意思是Python数值计算扩展,下面一起来看一下,希望对大家有帮助。

python中文是什么意思python中文是什么意思Jun 24, 2019 pm 02:22 PM

pythn的中文意思是巨蟒、蟒蛇。1989年圣诞节期间,Guido van Rossum在家闲的没事干,为了跟朋友庆祝圣诞节,决定发明一种全新的脚本语言。他很喜欢一个肥皂剧叫Monty Python,所以便把这门语言叫做python。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境