1、首先找到一个在线成语网站
2、查看网页结构,定义正则式
看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在标签中,如:安如磐石,成语事实上就是一个瞄文本,不同成语指向的链接不同,其实也就"/cy0/93.html"中的数字不同,所以正则式里匹配两次数字就行了,定义正则式 reg = "(.*?)"。
3、上代码吧
#anthor jiqunpeng
#time 20121124
import urllib
import re
def getHtml(url): #从URL中读取html内容
page = urllib.urlopen(url)
html = page.read()
page.close()
return html
def getDictionary(html): #匹配成语
reg = "(.*?)"
dicList = re.compile(reg).findall(html)
return dicList
def getItemSite():#手工把每个字母开头的页面数统计下来
itemSite = {}#申明为空字典
itemSite["A"] = 3
itemSite["B"] = 21
itemSite["C"] = 19
itemSite["D"] = 18
itemSite["E"] = 2
itemSite["F"] = 14
itemSite["G"] = 13
itemSite["H"] = 15
itemSite["J"] = 23
itemSite["K"] = 6
itemSite["L"] = 15
itemSite["M"] = 12
itemSite["N"] = 5
itemSite["O"] = 1
itemSite["P"] = 6
itemSite["Q"] = 16
itemSite["R"] = 8
itemSite["S"] = 26
itemSite["T"] = 12
itemSite["W"] = 13
itemSite["X"] = 16
itemSite["Y"] = 35
itemSite["A"] = 21
return itemSite
if __name__== "__main__":
dicFile = open("dic.txt","w+")#保存成语的文件
domainsite = "http://chengyu.itlearner.com/list/"
itemSite = getItemSite()
for key,values in itemSite.items():
for index in range(1,values+1):
site = key +"_"+str(index)+".html"
dictionary = getDictionary(getHtml(domainsite+site))
for dic in dictionary:
dicFile.write(dic[2]+"@@CY\n")#标记为成语,分词时使用
print key+'字母成语抓取完毕'
dicFile.close()
print '全部成语抓取完毕'
把成语保存在了txt文本中,还添加了一个后缀标签。
最后注意,设计正则表达式时可能会出现明明认为是正确的,就是匹配不了,对空白字符要留意,比如说要解析:

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中,Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域,NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面,Python適用於自動化測試和系統管理等任務。

兩小時內可以學到Python的基礎知識。 1.學習變量和數據類型,2.掌握控制結構如if語句和循環,3.了解函數的定義和使用。這些將幫助你開始編寫簡單的Python程序。

如何在10小時內教計算機小白編程基礎?如果你只有10個小時來教計算機小白一些編程知識,你會選擇教些什麼�...

使用FiddlerEverywhere進行中間人讀取時如何避免被檢測到當你使用FiddlerEverywhere...

Python3.6環境下加載Pickle文件報錯:ModuleNotFoundError:Nomodulenamed...

如何解決jieba分詞在景區評論分析中的問題?當我們在進行景區評論分析時,往往會使用jieba分詞工具來處理文�...

如何使用正則表達式匹配到第一個閉合標籤就停止?在處理HTML或其他標記語言時,常常需要使用正則表達式來�...

攻克Investing.com的反爬蟲策略許多人嘗試爬取Investing.com(https://cn.investing.com/news/latest-news)的新聞數據時,常常�...


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

記事本++7.3.1
好用且免費的程式碼編輯器