C#下解析HTML的两种方法介绍-C#.Net教程-PHP中文网

首页

后端开发

C#.Net教程

C#下解析HTML的两种方法介绍

高洛峰

Jan 13, 2017 pm 05:21 PM

在搜索引擎的开发中，我们需要对Html进行解析。本文介绍C#解析HTML的两种方法。
AD：
在搜索引擎的开发中，我们需要对网页的Html内容进行检索，难免的就需要对Html进行解析。拆分每一个节点并且获取节点间的内容。此文介绍两种C#解析Html的方法。

C#解析Html的第一种方法：
用System.Net.WebClient下载Web Page存到本地文件或者String中，用正则表达式来分析。这个方法可以用在Web Crawler等需要分析很多Web Page的应用中。
估计这也是大家最直接，最容易想到的一个方法。
转自网上的一个实例：所有的href都抽取出来：

using System; 
using System.Net; 
using System.Text; 
using System.Text.RegularExpressions; 
namespace HttpGet 
{ 
class Class1 
{ 
[STAThread] 
static void Main(string[] args) 
{ 
System.Net.WebClient client = new WebClient(); 
byte[] page = client.DownloadData("http://www.google.com"); 
string content = System.Text.Encoding.UTF8.GetString(page); 
string regex = "href=[\\\"\\\&#39;](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\\&#39;]"; 
Regex re = new Regex(regex); 
MatchCollection matches = re.Matches(content);
System.Collections.IEnumerator enu = matches.GetEnumerator(); 
while (enu.MoveNext() && enu.Current != null) 
{ 
Match match = (Match)(enu.Current); 
Console.Write(match.Value + "\r\n"); 
} 
} 
} 
}

C#解析Html的第二种方法：
利用Winista.Htmlparser.Net 解析Html。这是.NET平台下解析Html的开源代码，网上有源码下载，百度一下就能搜到，这里就不提供了。并且有英文的帮助文档。找不到的留下邮箱。

个人认为这是.net平台下解析html不错的解决方案，基本上能够满足我们对html的解析工作。
自己做了个实例：

using System; 
using System.Collections.Generic; 
using System.ComponentModel; 
using System.Data; 
using System.Drawing; 
using System.Linq; 
using System.Text; 
using System.Windows.Forms; 
using Winista.Text.HtmlParser; 
using Winista.Text.HtmlParser.Lex; 
using Winista.Text.HtmlParser.Util; 
using Winista.Text.HtmlParser.Tags; 
using Winista.Text.HtmlParser.Filters;

namespace HTMLParser 
{ 
public partial class Form1 : Form 
{ 
public Form1() 
{ 
InitializeComponent(); 
AddUrl(); 
}
private void btnParser_Click(object sender, EventArgs e) 
{ 
#region 获得网页的html 
try 
{
txtHtmlWhole.Text = ""; 
string url = CBUrl.SelectedItem.ToString().Trim(); 
System.Net.WebClient aWebClient = new System.Net.WebClient(); 
aWebClient.Encoding = System.Text.Encoding.Default; 
string html = aWebClient.DownloadString(url); 
txtHtmlWhole.Text = html; 
} 
catch (Exception ex) 
{ 
MessageBox.Show(ex.Message); 
} 
#endregion
#region 分析网页html节点 
Lexer lexer = new Lexer(this.txtHtmlWhole.Text); 
Parser parser = new Parser(lexer); 
NodeList htmlNodes = parser.Parse(null); 
this.treeView1.Nodes.Clear(); 
this.treeView1.Nodes.Add("root"); 
TreeNode treeRoot = this.treeView1.Nodes[0]; 
for (int i = 0; i < htmlNodes.Count; i++) 
{ 
this.RecursionHtmlNode(treeRoot, htmlNodes[i], false); 
}
#endregion
}
private void RecursionHtmlNode(TreeNode treeNode, INode htmlNode, bool siblingRequired) 
{ 
if (htmlNode == null || treeNode == null) return;
TreeNode current = treeNode; 
TreeNode content ; 
//current node 
if (htmlNode is ITag) 
{ 
ITag tag = (htmlNode as ITag); 
if (!tag.IsEndTag()) 
{ 
string nodeString = tag.TagName; 
if (tag.Attributes != null && tag.Attributes.Count > 0) 
{ 
if (tag.Attributes["ID"] != null) 
{ 
nodeString = nodeString + " { id=\"" + tag.Attributes["ID"].ToString() + "\" }"; 
} 
if (tag.Attributes["HREF"] != null) 
{ 
nodeString = nodeString + " { href=\"" + tag.Attributes["HREF"].ToString() + "\" }"; 
} 
}
current = new TreeNode(nodeString); 
treeNode.Nodes.Add(current); 
} 
} 
//获取节点间的内容 
if (htmlNode.Children != null && htmlNode.Children.Count > 0) 
{ 
this.RecursionHtmlNode(current, htmlNode.FirstChild, true); 
content = new TreeNode(htmlNode.FirstChild.GetText()); 
treeNode.Nodes.Add(content); 
} 
//the sibling nodes 
if (siblingRequired) 
{ 
INode sibling = htmlNode.NextSibling; 
while (sibling != null) 
{ 
this.RecursionHtmlNode(treeNode, sibling, false); 
sibling = sibling.NextSibling; 
} 
} 
} 
private void AddUrl() 
{ 
CBUrl.Items.Add("http://www.hao123.com"); 
CBUrl.Items.Add("http://www.sina.com"); 
CBUrl.Items.Add("http://www.heuet.edu.cn"); 
} 
} 
}

运行效果：

C#下解析HTML的两种方法介绍

实现取来很容易，结合Winista.Htmlparser源码很快就可以实现想要的效果。

小结：
简单介绍了两种C#解析Html的的方法，大家有什么其他好的方法还望指教。

更多C#下解析HTML的两种方法介绍相关文章请关注PHP中文网！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

C＃.NET框架与.NET Core/5/6：有什么区别？May 07, 2025 am 12:06 AM

。

C＃.NET开发人员社区：资源和支持May 06, 2025 am 12:11 AM

C#.NET开发者社区提供了丰富的资源和支持，包括：1.微软的官方文档，2.社区论坛如StackOverflow和Reddit，3.GitHub上的开源项目，这些资源帮助开发者从基础学习到高级应用，提升编程技能。

C＃.NET优势：功能，好处和用例May 05, 2025 am 12:01 AM

C#.NET的优势包括：1）语言特性，如异步编程简化了开发；2）性能与可靠性，通过JIT编译和垃圾回收机制提升效率；3）跨平台支持，.NETCore扩展了应用场景；4）实际应用广泛，从Web到桌面和游戏开发都有出色表现。

C＃总是与.NET关联吗？探索替代方案May 04, 2025 am 12:06 AM

C#并不总是与.NET捆绑在一起。1)C#可以在Mono运行时环境中运行，适用于Linux和macOS。2)在Unity游戏引擎中，C#用于脚本编写，不依赖.NET框架。3)C#还可用于嵌入式系统开发，如.NETMicroFramework。

.NET生态系统：C＃的角色和超越May 03, 2025 am 12:04 AM

C#在.NET生态系统中扮演核心角色，是开发者的首选语言。1)C#提供高效、易用的编程方式，结合C、C 和Java的优点。2)通过.NET运行时（CLR）执行，确保跨平台高效运行。3)C#支持从基本到高级的用法，如LINQ和异步编程。4)优化和最佳实践包括使用StringBuilder和异步编程，提高性能和可维护性。

C＃作为.NET语言：生态系统的基础May 02, 2025 am 12:01 AM

C#是微软在2000年发布的编程语言，旨在结合C 的强大功能和Java的简洁性。1.C#是一种类型安全、面向对象的编程语言，支持封装、继承和多态。2.C#的编译过程将代码转化为中间语言（IL），然后在.NET运行时环境（CLR）中即时编译成机器码执行。3.C#的基本用法包括变量声明、控制流和函数定义，而高级用法涵盖异步编程、LINQ和委托等。4.常见错误包括类型不匹配和空引用异常，可通过调试器、异常处理和日志记录来调试。5.性能优化建议包括使用LINQ、异步编程和提高代码可读性。

c＃vs. .net：澄清关键差异和相似之处May 01, 2025 am 12:12 AM

C#是一种编程语言，而.NET是一个软件框架。1.C#由微软开发，适用于多平台开发。2..NET提供类库和运行时环境，支持多语言。两者协同工作，构建现代应用。

超越炒作：评估C＃.NET的当前作用Apr 30, 2025 am 12:06 AM

C#.NET是一个强大的开发平台，结合了C#语言和.NET框架的优势。1)它广泛应用于企业应用、Web开发、游戏开发和移动应用开发。2)C#代码编译成中间语言后由.NET运行时环境执行，支持垃圾回收、类型安全和LINQ查询。3)使用示例包括基本控制台输出和高级LINQ查询。4)常见错误如空引用和类型转换错误可以通过调试器和日志记录解决。5)性能优化建议包括异步编程和优化LINQ查询。6)尽管面临竞争，C#.NET通过不断创新保持其重要地位。

See all articles