搜索
首页后端开发C#.Net教程HttpClient的爬取网页源代码

HttpClient的爬取网页源代码

Dec 20, 2016 pm 12:00 PM
apache

包UTIL;

进口java.io.BufferedReader中; 
进口java.io.IOException异常; 
进口的java.io.InputStream; 
进口java.io.InputStreamReader中; 
进口java.text.DateFormat中; 
进口java.text.SimpleDateFormat的; 
进口的java.util.ArrayList; 
进口java.util.Date; 
进口的java.util.HashMap; 
进口的java.util.List; 
进口的java.util.Map; 
进口java.util.Set中; 
进口java.util.Map.Entry; 
进口java.util.zip.GZIPInputStream;

进口org.apache.commons.httpclient.Header; 
进口org.apache.commons.httpclient.HttpClient; 
进口org.apache.commons.httpclient.HttpException; 
进口org.apache.commons.httpclient.HttpMethod; 
进口org.apache.commons.httpclient.HttpStatus; 
进口org.apache.commons.httpclient.NameValuePair; 
进口org.apache.commons.httpclient.SimpleHttpConnectionManager; 
进口org.apache.commons.httpclient.methods.GetMethod; 
进口org.apache.commons.httpclient.methods.PostMethod; 
进口org.apache.commons.httpclient.params.HttpConnectionManagerParams; 
进口org.apache.commons.httpclient.params.HttpMethodParams;

/ ** 
* @author六味
*日期:2009年12月18日

* TODO 
* HttpClient的辅助类
* / 
public类HttpClientHelper 


/ ** 
* HttpClient的连接超时,读取数据超时时间设置(单位:毫秒)
* / 
公共静态最终诠释HTTPCLIENT_CONNECTION_TIMEOUT = 30000; 
公共静态最终诠释HTTPCLIENT_SO_TIMEOUT = 120000; 
公共静态最终诠释HTTPMETHOD_SO_TIMEOUT = 5000; 

//让的ConnectionManager管理httpclientconnection时是否关闭连接
私有静态布尔alwaysClose = FALSE; 
私人静态字符串defaultEncode =“UTF-8”; 

私有静态最后的DateFormat DATE_FORMAT =新的SimpleDateFormat(“YYYY-MM-DD HH:MM:SS”); 

/ ** 
*获取HttpClient的连接,并设置相关参数

* @return 
* / 
公共静态HttpClient的getHttpClient()

HttpClient的客户端=新的HttpClient(新SimpleHttpConnectionManager(alwaysClose)); 
HttpConnectionManagerParams managerParams = client.getHttpConnectionManager()getParams()方法。
//设置连接超时时间(单位毫秒)
managerParams.setConnectionTimeout(HTTPCLIENT_CONNECTION_TIMEOUT); 
//设置读数据超时时间(单位毫秒)
managerParams.setSoTimeout(HTTPCLIENT_SO_TIMEOUT); 
返回客户端; 


/ ** 
*获取HttpClient的连接,并设置相关参数

* @参数logonSite 
* @参数logonPort 
* @参数协议
* @return 
* / 
公共静态HttpClient的getHttpClient(最后弦乐logonSite,最终诠释logonPort,最后弦乐协议)

HttpClient的客户端=新的HttpClient(新SimpleHttpConnectionManager(alwaysClose)); 
client.getHostConfiguration()setHost(logonSite,logonPort,协议)。
HttpConnectionManagerParams managerParams = client.getHttpConnectionManager()getParams()方法。
//设置连接超时时间(单位毫秒)
managerParams.setConnectionTimeout(HTTPCLIENT_CONNECTION_TIMEOUT); 
//设置读数据超时时间(单位毫秒)
managerParams.setSoTimeout(HTTPCLIENT_SO_TIMEOUT); 
返回客户端; 


私有静态列表<标题> getHeaders(地图头)

名单<标题> =报头的ArrayList新<标题>(); 
布尔includeUserAgent = FALSE; 
如果(空=头&&假== header.isEmpty()!)

集<进入<字符串,字符串>> =的entrySet header.entrySet(); 
对于(进入项:的entrySet)

如果(假== includeUserAgent 
&&“用户代理”.equals(entry.getKey()))

includeUserAgent = TRUE; 

headers.add(新报头(entry.getKey(),entry.getValue())); 



如果(假== includeUserAgent)

headers.add(新标题(
“用户代理”,
“Mozilla的/ 4.0(兼容; MSIE 7.0; Windows NT的5.1; GTB5; .NET CLR 1.1.4322; .NET CLR 2.0 0.50727; Alexa工具条; MAXTHON 2.0)“)); 

返回头; 


私有静态的NameValuePair [] getPairs(地图 POSTDATA)

如果(空== || POSTDATA postData.isEmpty())

返回NULL; 


设置<输入<字符串,字符串>> =的entrySet postData.entrySet(); 
INT DATALENGTH = entrySet.size(); 
的NameValuePair [] =对新的NameValuePair [DATALENGTH] 
INT I = 0; 
对于(进入项:的entrySet)

双[我++] =新的NameValuePair(entry.getKey(),entry.getValue()); 

返回对; 


/ ** 
*请求网页内容信息

* @参数的HttpClient 
* @参数reqUrl 
*参数标题
* @参数POSTDATA 
*参数编码
* @return 
* / 
公共静态字符串doRequest(HttpClient的HttpClient的,字符串reqUrl,
地图<字符串, String>的头,地图 POSTDATA,字符串编码)

字符串htmlContent = NULL; 
如果(空== HttpClient的)

返回htmlContent; 


//请求编码设置
编码=(空==编码defaultEncode:编码); 

//头部请求信息
列表<标题> =头getHeaders(头); 

的System.out.println(“[”+ DATE_FORMAT.format(新的Date())+“] - doRequest - ”+ reqUrl); 

//交方式
,如果(空= POSTDATA!)

的PostMethod的PostMethod =新EncodePostMethod(reqUrl,编码); 
对于(头tempHeader:头)

postMethod.setRequestHeader(tempHeader); 


//后参数设置
的NameValuePair [] = PARAMS getPairs(POSTDATA); 
如果(空=参数!)

postMethod.setRequestBody(PARAMS); 


//提取网页内容
htmlContent = executeMethod(HttpClient的,后方法,编码,getWebSite(reqUrl)); 

其他

GetMethod getMethod =新的实现getMethod(reqUrl); 
对于(头tempHeader:头)

getMethod.setRequestHeader(tempHeader); 


//提取网页内容
htmlContent = executeMethod(HttpClient的,getMethod,编码,NULL); 

返回htmlContent; 


私有静态字符串getWebSite(字符串reqUrl)

字符串网站= NULL; 
如果(空== reqUrl || reqUrl.isEmpty())

返回网站; 


字符串前缀=“HTTP://”; 
如果(reqUrl.startsWith(前缀))

INT指数= reqUrl.substring(prefix.length())的indexOf(“/”)+ prefix.length(); 
网站= reqUrl.substring(0,索引); 

返回网站; 


/ ** 
*通过列举HTTPMethod获取网页内容

* @参数的HttpClient 
* @参数requestMethod 
*参数编码
*参数的网站
* @return 
* / 
私有静态字符串executeMethod(HttpClient的HttpClient的,列举HTTPMethod requestMethod,编码字符串,字符串网站)

字符串responseContent = NULL; 
如果(空== HttpClient的)

返回responseContent; 


//判断是否请求加密数据
的布尔dataEncrypt = FALSE; 
头acceptEncoding = requestMethod.getRequestHeader(“接受编码”); 
如果(!空= acceptEncoding 
。&& acceptEncoding.getValue()包含(“gzip的”))

dataEncrypt = TRUE; 


的InputStream responseStream = NULL; 
尝试

INT状态= httpClient.executeMethod(requestMethod); 
如果(HttpStatus.SC_OK ==状态)

responseStream = requestMethod.getResponseBodyAsStream(); 
responseContent = getContentByStream(dataEncrypt新GZIPInputStream(responseStream):responseStream,编码); 
responseStream.close(); 

//返回代码为301302303307时,表示页面己经重定向,则重新请求位置的URL,这在一些登录授权取饼干时很重要
否则,如果(HttpStatus.SC_MOVED_PERMANENTLY ==状态
|| HttpStatus.SC_MOVED_TEMPORARILY ==状态
|| HttpStatus.SC_SEE_OTHER ==状态
|| HttpStatus.SC_TEMPORARY_REDIRECT ==状态)

//读取新的URL地址
头球冲顶= requestMethod.getResponseHeader(“位置”); 
如果(!头= NULL)

字符串的redirectUrl = header.getValue(); 
如果(零=的redirectUrl!
&&假== redirectUrl.isEmpty())

responseContent =无效; 
如果(空==的redirectUrl || redirectUrl.isEmpty())

的redirectUrl =“/”; 


如果(假== redirectUrl.startsWith(“HTTP://”)
!&&空=网站)

如果(website.startsWith(“/”))

的redirectUrl =网站+的redirectUrl; 

其他

的redirectUrl =网站+“/”+的redirectUrl; 



GetMethod重定向=新的实现getMethod(的redirectUrl); 
头引荐= requestMethod.getRequestHeader(“引荐”); 
如果(空=引用者!)

redirect.addRequestHeader(引荐); 

头的cookie = requestMethod.getRequestHeader(“曲奇”); 
如果(空=饼干!)

redirect.addRequestHeader(饼干); 

状态= httpClient.executeMethod(重定向); 
如果(HttpStatus.SC_OK ==状态)

responseStream = redirect.getResponseBodyAsStream(); 
responseContent = getContentByStream(responseStream,编码); 
responseStream.close(); 



} //端头

} //结束状态

}赶上(例外五)

e.printStackTrace(); 
}最后

如果(requestMethod!= NULL)

requestMethod.releaseConnection(); 


返回responseContent; 


/ ** 
*按照指定编码从流中读取信息

* @参数inStream中
*参数编码
* @返回
*引发IOException 
* / 
公共静态字符串getContentByStream(的InputStream inStream中,字符串编码)抛出IOException异常

如果(空= =插播广告)

返回NULL; 


StringBuilder的内容=新的StringBuilder(); 
//采用指定编码格式读取流内容
的BufferedReader读者=新的BufferedReader(新的InputStreamReader(插播广告,编码)); 
字符串消息= NULL; 
而(空=(消息= reader.readLine())!)

content.append(消息); 
content.append(“\ r \ n”); 

//关闭读取器,释放资源
reader.close(); 
返回(content.toString()); 


/ ** 
*内部类,继承于的PostMethod,用来指定邮政请求编码格式
* / 
公共静态类EncodePostMethod扩展的PostMethod 

私人字符串编码= NULL; 

公共EncodePostMethod(URL字符串,字符串编码)

超(URL); 
this.encode =编码; 


@覆盖
公共字符串getRequestCharSet()

// TODO自动生成方法存根
回报(this.encode); 




/ ** 
*测试

* @参数ARGS 
* / 
公共静态无效的主要(字串[] args)

//System.setProperty("http.proxyHost“,”165.228.128.10“); 
//System.setProperty("http.proxyPort“,”3128“); 
//System.setProperty("http.proxySet“,”真“); 


字符串reqUrl =“ http://news.39.net/jbyw/index.html ”; 
reqUrl =“ http://news.39.net/a/2010722/1404231.html ”; 
地图标题=新的HashMap (); 
headers.put(“接受编码”,“gzip的,放气”); 

HttpClient的HttpClient的= getHttpClient(); 
字符串htmlContent = doRequest(HttpClient的,reqUrl,头,空,“GBK”); 
的System.out.println(htmlContent); 


}


声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
c#.net的持续相关性:查看当前用法c#.net的持续相关性:查看当前用法Apr 16, 2025 am 12:07 AM

C#.NET依然重要,因为它提供了强大的工具和库,支持多种应用开发。1)C#结合.NET框架,使开发高效便捷。2)C#的类型安全和垃圾回收机制增强了其优势。3).NET提供跨平台运行环境和丰富的API,提升了开发灵活性。

从网络到桌面:C#.NET的多功能性从网络到桌面:C#.NET的多功能性Apr 15, 2025 am 12:07 AM

C#.NETisversatileforbothwebanddesktopdevelopment.1)Forweb,useASP.NETfordynamicapplications.2)Fordesktop,employWindowsFormsorWPFforrichinterfaces.3)UseXamarinforcross-platformdevelopment,enablingcodesharingacrossWindows,macOS,Linux,andmobiledevices.

C#.NET与未来:适应新技术C#.NET与未来:适应新技术Apr 14, 2025 am 12:06 AM

C#和.NET通过不断的更新和优化,适应了新兴技术的需求。1)C#9.0和.NET5引入了记录类型和性能优化。2).NETCore增强了云原生和容器化支持。3)ASP.NETCore与现代Web技术集成。4)ML.NET支持机器学习和人工智能。5)异步编程和最佳实践提升了性能。

c#.net适合您吗?评估其适用性c#.net适合您吗?评估其适用性Apr 13, 2025 am 12:03 AM

c#.netissutableforenterprise-levelapplications withemofrosoftecosystemdueToItsStrongTyping,richlibraries,androbustperraries,androbustperformance.however,itmaynotbeidealfoross-platement forment forment forment forvepentment offependment dovelopment toveloperment toveloperment whenrawspeedsportor whenrawspeedseedpolitical politionalitable,

.NET中的C#代码:探索编程过程.NET中的C#代码:探索编程过程Apr 12, 2025 am 12:02 AM

C#在.NET中的编程过程包括以下步骤:1)编写C#代码,2)编译为中间语言(IL),3)由.NET运行时(CLR)执行。C#在.NET中的优势在于其现代化语法、强大的类型系统和与.NET框架的紧密集成,适用于从桌面应用到Web服务的各种开发场景。

C#.NET:探索核心概念和编程基础知识C#.NET:探索核心概念和编程基础知识Apr 10, 2025 am 09:32 AM

C#是一种现代、面向对象的编程语言,由微软开发并作为.NET框架的一部分。1.C#支持面向对象编程(OOP),包括封装、继承和多态。2.C#中的异步编程通过async和await关键字实现,提高应用的响应性。3.使用LINQ可以简洁地处理数据集合。4.常见错误包括空引用异常和索引超出范围异常,调试技巧包括使用调试器和异常处理。5.性能优化包括使用StringBuilder和避免不必要的装箱和拆箱。

测试C#.NET应用程序:单元,集成和端到端测试测试C#.NET应用程序:单元,集成和端到端测试Apr 09, 2025 am 12:04 AM

C#.NET应用的测试策略包括单元测试、集成测试和端到端测试。1.单元测试确保代码的最小单元独立工作,使用MSTest、NUnit或xUnit框架。2.集成测试验证多个单元组合的功能,常用模拟数据和外部服务。3.端到端测试模拟用户完整操作流程,通常使用Selenium进行自动化测试。

高级C#.NET教程:ACE您的下一次高级开发人员面试高级C#.NET教程:ACE您的下一次高级开发人员面试Apr 08, 2025 am 12:06 AM

C#高级开发者面试需要掌握异步编程、LINQ、.NET框架内部工作原理等核心知识。1.异步编程通过async和await简化操作,提升应用响应性。2.LINQ以SQL风格操作数据,需注意性能。3..NET框架的CLR管理内存,垃圾回收需谨慎使用。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),