搜尋
首頁後端開發C#.Net教程HttpClient的爬取網頁原始碼

HttpClient的爬取網頁原始碼

Dec 20, 2016 pm 12:00 PM
apache

包UTIL;

進口java.io.BufferedReader中; 
進口java.io.IOException異常; 
進口的java.io.InputStream; 
進口java.io.InputStreamReader中; 
進口.
進口java.text.SimpleDateFormat的; 
進口的java.util.ArrayList; 
進口java.util.Date; 
進口的java.util.HashMap; 
進口的java.util.List .Map; 
進口java.util.Set中; 
進口java.util.Map.Entry; 
進口java.util.zip.GZIPInputStream;

進口org.apache.commons.httpclient.HeaderStream;


進口org.apache.commons.httpclient.Header; .commons.httpclient.HttpClient; 
進口org.apache.commons.httpclient.HttpException; 
進口org.apache.commons.httpclient.HttpMethod; 
進口org.apache.commons.httpclient.HttpMethod; 
進口org.apache.commons.httpclient.Http .httpclient.NameValuePair; 
進口org.apache.commons.httpclient.SimpleHttpConnectionManager; 
進口org.apache.commons.httpclient.methods.GetMethod; 
進口org.apache.commons.httpclicli.com .commons.httpclient.params.HttpConnectionManagerParams; 
進口org.apache.commons.httpclient.params.HttpMethodParams;

/ ** 
* @author六味
*日期:2009年12月18日

* TODO 
* HttpClient的輔助類
* / 
publicHtttt超時,讀取資料逾時時間設定(單位:毫秒)
* / 
公共靜態最終詮釋HTTPCLIENT_CONNECTION_TIMEOUT = 30000; 
公共靜態最終詮釋HTTPCLIENT_SO_TIMEOUT = 1200000; //讓的ConnectionManager管理httpclientconnection時是否關閉連接
私有靜態布林alwaysClose = FALSE; 
私人靜態字串defaultEncode =「UTF-8」; 

私有靜態最後的DateFormat DATE_FORMAT =新的SimpleDateFormat(「YY ”); 

/ ** 
*取得HttpClient的連接,並設定相關參數

* @return 
* / 
公用靜態HttpClient的getHttpClient(ClYcom (alwaysClose)); 
HttpConnectionManagerParams managerParams = client.getHttpConnectionManager()getParams()方法。
//設置連接超時時間(單位毫秒)
managerParams.setConnectionTimeout(HTTPCLIENT_CONNECTION_TIMEOUT); 
//設置讀數據超時時間(單位毫秒)
managerParams.setSoTimeout(HTTPCLIENT_SO_TIMEOUT); 
返回客戶端; 


/ * * 
*取得HttpClient的連接,並設定相關參數

* @參數logonSite 
* @參數logonPort 
* @參數協定
* @return 
* / 
* @參數協定
* @return ? logonPort,最後弦樂協定)

HttpClient的客戶端=新的HttpClient(新SimpleHttpConnectionManager(alwaysClose)); 
client.getHostConfiguration()setHost(logonSite,logonPort,協定)。
HttpConnectionManagerParams managerParams = client.getHttpConnectionManager()getParams()方法。
//設定連線逾時時間(單位毫秒)
managerParams.setConnectionTimeout(HTTPCLIENT_CONNECTION_TIMEOUT); 
//設定讀取資料逾時時間(單位毫秒)
managerParams.setSoTimeout(HTTPCLIENT_SO_TIME列表 getHeaders(地圖頭)

名單 =報頭的ArrayList新(); 
布爾includeUserAgent = FALSE; 
如果(空=頭&&假== header .isEmpty()! == includeUserAgent 
&&「使用者代理程式」.equals(entry.getKey()))

includeUserAgent = TRUE; 

headers.add(新標頭(entry.getKey(Key),entry.get(Key),entry.get(Key),entry.get(Key),entry.get(Key),entry);



如果(假== includeUserAgent)

headers.add(新標題(
“用戶代理”,
“Mozilla的/ 4.0(兼容; MSIE 7.0; Windows 的5.NET; CLR 1.1.4322; .NET CLR 2.0 0.50727; Alexa工具條; MAXTHON 2.0)“)); 

返回頭; 


私有{ 
如果(空== || POSTDATA postData.isEmpty())

回傳NULL; 


設定> =的entrySet postData.entrySet(); entrySet.size(); 
的NameValuePair [] =對新的NameValuePair [DATALENGTH] 
INT I = 0; 
對於(進入項目:的entrySet)

雙[我++] =新的NameValuePair(entry.getKey(),entry.getValue()); 

傳回; 


/ ** 
*請求網頁內容資訊
* *參數標題
* @參數POSTDATA 
*參數編碼
* @return 
* / 
公共靜態字串doRequest(HttpClient的HttpClient的,字串reqUrl,
地圖的頭, POSTDATA,字串編碼)

字串htmlContent = NULL; 
如果(空== HttpClient的)

回傳htmlContent; 


//請要求回填編號defaultEncode:編碼); 

//頭部請求資訊
列表 =頭getHeaders(頭); 

的System.out.println(“[”+ DATE_FORMAT.format(新的Date())+“] - doRequest - ”+ reqUrl); 

//交方式
,如果(空= POSTDATA!)

的PostMethod的PostMethod =新EncodePostMethod(reqUrl,編碼); 
對於(頭tempHeader:頭)

postMethod.setRequestHeader(tempHeader); 


//後參數設定PairName/ ); 
如果(空=參數!)

postMethod.setRequestBody(PARAMS); 


//提取網頁內容
htmlContent = executeMethod(HttpClient
//提取網頁內容
htmlContent = executeMethod(HttpClient)的,後方法,
其他

GetMethod getMethod =新的實作getMethod(reqUrl); 
對於(頭tempHeader:頭)

getMethod.setRequestHeader(tempHeader); ,getMethod,編碼,NULL); 

回傳htmlContent; 


私有靜態字串getWebSite(字串reqUrl)

字串網站= NULL; ))

回網站; 


字串字首=「HTTP://」; 
如果(reqUrl.startsWith(字首))

INT指數= reqUrl.startsWith(字首))

INT指數= reqUrl.subing(字首)的字節(prefix) indexOf(「/」)+ prefix.length(); 
網站= reqUrl.substring(0,索引); 

回網站; 


/ **生活@參數的HttpClient 
* @參數requestMethod 
*參數編碼
*參數的網站
* @return 
* / 
私有靜態字串executeMethod(HttpClient的HttpClient的,列舉HTTPMethod request { 
字串responseContent = NULL; 
如果(空== HttpClient的)

傳回responseContent; 


//SEApatceptionalatquestionalpatquestional的布林識別.接受編碼」); 
如果(!空= acceptEncoding 
。 && acceptEncoding.getValue()包含(「gzip的」))

dataEncrypt = TRUE; 


的InputStream responseStream = N .SC_OK ==狀態)

responseStream = requestMethod.getResponseBodyAsStream(); 
responseContent = getContentByStream(dataEncry🠎🠎):responStreamStream,編碼)傳回01302303307時,表示頁面己經重定向,則重新請求位置的URL,這在一些登入授權取餅乾時很重要
否則,如果(HttpStatus.SC_MOVED_PERMANENTLY ==狀態
|| HttpStatus.SC_MOVED_TEMPORARILY ==狀態
|| HttpStatus.SC_MOVED_TEMPORARILY ==狀態
|| HttpStatus .SC_SEE_OTHER ==狀態
|| HttpStatus.SC_TEMPORARY_REDIRECT ==狀態)

//讀取新的URL位址
頭球沖頂= requestMethod.getResponseHeader(「位置」);頭球沖頂= requestMethod.getResponseHeader(「位置」);
字串的redirectUrl = header.getValue(); 
如果(零=的redirectUrl!
&&假== redirectUrl.isEmpty())

responseContent_無效; isEmpty())

的redirectUrl =「/」; 


如果(假== redirectUrl.startsWith(「HTTP://」)
!&&空=網站)
「/」))

的redirectUrl =網站+的redirectUrl; 

其他

的redirectUrl =網站+「/」+的redirectUrl;的redirectUrl); 
頭引薦= requestMethod.getRequestHeader(「引薦」); 
如果(空=引用者! )

redirect.addRequestHeader(引薦); 

頭的cookie = requestMethod.getRequestHeader(「餅乾」); 
如果(空=餅乾!)

red); = httpClient.executeMethod(重新導向); 
如果(HttpStatus.SC_OK ==狀態)

responseStream = redirect.getResponseBodyAsStream(); 



} //端頭

} //結束狀態

}趕上(例外五)

e.printStackTrace(); 
}最後

如果(requestMethod!= NULL)

requestMethod.releaseConnection(); 


傳回responseContent; 

*
*參數編碼
* @回傳
*引發IOException 
* / 
公用靜態字串getContentByStream(的InputStream inStream中,字串編碼)拋出IOException異常

如果(空格回NULL; 


StringBuilder的內容=新的StringBuilder(); 
//採用指定編碼格式讀取流內容
的BufferedReader讀者=新的BufferedReader(新的InputStreamReader(插播廣告,編碼));訊息= NULL; 
而(空=(訊息= reader.readLine())!)

content.append(訊息); 
content.append(「 r n」); 

/////關閉讀取器,釋放資源
reader.close(); 
返回(content.toString()); 


/ ** 
*內部類,繼承於的PostMethod,用來指定郵政請求編碼格式
* / 
公共靜態類EncodePostMethod擴展的PostMethod 

私人字符串編碼= NULL; 

公共EncodePostMethod(URL字串,字串編碼)

超(URL); 
this.encode ={ 
超(URL); 字串getRequestCharSet()

// TODO自動產生方法存根
回報(this.encode); 




/ ** 
*測試


/ ** 
*測試
*測試
* *的主要(字符串[] args)

//System.setProperty("http.proxyHost“,”165.228.128.10“); 
//System.setProperty("http.proxyPort“,”3128“); //System.setProperty("http.proxySet“,”真“); 


字串reqUrl =“ http://news.39.net/jbyw/index.html ”; 
reqUrl =“ http:// news.39.net/a/2010722/1404231.html ”; 
地圖標題=新的HashMap (); 
headers.put(「接受編碼”,「gzip的,放氣」); 

HttpClient的HttpClient的= getHttpClient(); 
字串htmlContent = doRequest(HttpClient的,reqUrl,頭,空,「GBK」); 的lnSystemContout.print;

}



陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
c#.net的持續相關性:查看當前用法c#.net的持續相關性:查看當前用法Apr 16, 2025 am 12:07 AM

C#.NET依然重要,因為它提供了強大的工具和庫,支持多種應用開發。 1)C#結合.NET框架,使開發高效便捷。 2)C#的類型安全和垃圾回收機制增強了其優勢。 3).NET提供跨平台運行環境和豐富的API,提升了開發靈活性。

從網絡到桌面:C#.NET的多功能性從網絡到桌面:C#.NET的多功能性Apr 15, 2025 am 12:07 AM

C#.NETisversatileforbothwebanddesktopdevelopment.1)Forweb,useASP.NETfordynamicapplications.2)Fordesktop,employWindowsFormsorWPFforrichinterfaces.3)UseXamarinforcross-platformdevelopment,enablingcodesharingacrossWindows,macOS,Linux,andmobiledevices.

C#.NET與未來:適應新技術C#.NET與未來:適應新技術Apr 14, 2025 am 12:06 AM

C#和.NET通過不斷的更新和優化,適應了新興技術的需求。 1)C#9.0和.NET5引入了記錄類型和性能優化。 2).NETCore增強了雲原生和容器化支持。 3)ASP.NETCore與現代Web技術集成。 4)ML.NET支持機器學習和人工智能。 5)異步編程和最佳實踐提升了性能。

c#.net適合您嗎?評估其適用性c#.net適合您嗎?評估其適用性Apr 13, 2025 am 12:03 AM

c#.netissutableforenterprise-levelapplications withemofrosoftecosystemdueToItsStrongTyping,richlibraries,androbustperraries,androbustperformance.however,itmaynotbeidealfoross-platement forment forment forment forvepentment offependment dovelopment toveloperment toveloperment whenrawspeedsportor whenrawspeedseedpolitical politionalitable,

.NET中的C#代碼:探索編程過程.NET中的C#代碼:探索編程過程Apr 12, 2025 am 12:02 AM

C#在.NET中的編程過程包括以下步驟:1)編寫C#代碼,2)編譯為中間語言(IL),3)由.NET運行時(CLR)執行。 C#在.NET中的優勢在於其現代化語法、強大的類型系統和與.NET框架的緊密集成,適用於從桌面應用到Web服務的各種開發場景。

C#.NET:探索核心概念和編程基礎知識C#.NET:探索核心概念和編程基礎知識Apr 10, 2025 am 09:32 AM

C#是一種現代、面向對象的編程語言,由微軟開發並作為.NET框架的一部分。 1.C#支持面向對象編程(OOP),包括封裝、繼承和多態。 2.C#中的異步編程通過async和await關鍵字實現,提高應用的響應性。 3.使用LINQ可以簡潔地處理數據集合。 4.常見錯誤包括空引用異常和索引超出範圍異常,調試技巧包括使用調試器和異常處理。 5.性能優化包括使用StringBuilder和避免不必要的裝箱和拆箱。

測試C#.NET應用程序:單元,集成和端到端測試測試C#.NET應用程序:單元,集成和端到端測試Apr 09, 2025 am 12:04 AM

C#.NET應用的測試策略包括單元測試、集成測試和端到端測試。 1.單元測試確保代碼的最小單元獨立工作,使用MSTest、NUnit或xUnit框架。 2.集成測試驗證多個單元組合的功能,常用模擬數據和外部服務。 3.端到端測試模擬用戶完整操作流程,通常使用Selenium進行自動化測試。

高級C#.NET教程:ACE您的下一次高級開發人員面試高級C#.NET教程:ACE您的下一次高級開發人員面試Apr 08, 2025 am 12:06 AM

C#高級開發者面試需要掌握異步編程、LINQ、.NET框架內部工作原理等核心知識。 1.異步編程通過async和await簡化操作,提升應用響應性。 2.LINQ以SQL風格操作數據,需注意性能。 3..NET框架的CLR管理內存,垃圾回收需謹慎使用。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),