搜尋
首頁後端開發C#.Net教程C#下解析HTML的兩種方法介紹

在搜索引擎的开发中,我们需要对Html进行解析。本文介绍C#解析HTML的两种方法。
AD: 
在搜索引擎的开发中,我们需要对网页的Html内容进行检索,难免的就需要对Html进行解析。拆分每一个节点并且获取节点间的内容。此文介绍两种C#解析Html的方法。

C#解析Html的第一种方法:
用System.Net.WebClient下载Web Page存到本地文件或者String中,用正则表达式来分析。这个方法可以用在Web Crawler等需要分析很多Web Page的应用中。
估计这也是大家最直接,最容易想到的一个方法。
转自网上的一个实例:所有的href都抽取出来:

using System; 
using System.Net; 
using System.Text; 
using System.Text.RegularExpressions; 
namespace HttpGet 
{ 
class Class1 
{ 
[STAThread] 
static void Main(string[] args) 
{ 
System.Net.WebClient client = new WebClient(); 
byte[] page = client.DownloadData("http://www.google.com"); 
string content = System.Text.Encoding.UTF8.GetString(page); 
string regex = "href=[\\\"\\\'](http:\\/\\/|\\.\\/|\\/)?\\w+(\\.\\w+)*(\\/\\w+(\\.\\w+)?)*(\\/|\\?\\w*=\\w*(&\\w*=\\w*)*)?[\\\"\\\']"; 
Regex re = new Regex(regex); 
MatchCollection matches = re.Matches(content);
System.Collections.IEnumerator enu = matches.GetEnumerator(); 
while (enu.MoveNext() && enu.Current != null) 
{ 
Match match = (Match)(enu.Current); 
Console.Write(match.Value + "\r\n"); 
} 
} 
} 
}

C#解析Html的第二种方法:
利用Winista.Htmlparser.Net 解析Html。这是.NET平台下解析Html的开源代码,网上有源码下载,百度一下就能搜到,这里就不提供了。并且有英文的帮助文档。找不到的留下邮箱。

个人认为这是.net平台下解析html不错的解决方案,基本上能够满足我们对html的解析工作。
自己做了个实例:

using System; 
using System.Collections.Generic; 
using System.ComponentModel; 
using System.Data; 
using System.Drawing; 
using System.Linq; 
using System.Text; 
using System.Windows.Forms; 
using Winista.Text.HtmlParser; 
using Winista.Text.HtmlParser.Lex; 
using Winista.Text.HtmlParser.Util; 
using Winista.Text.HtmlParser.Tags; 
using Winista.Text.HtmlParser.Filters;

namespace HTMLParser 
{ 
public partial class Form1 : Form 
{ 
public Form1() 
{ 
InitializeComponent(); 
AddUrl(); 
}
private void btnParser_Click(object sender, EventArgs e) 
{ 
#region 获得网页的html 
try 
{
txtHtmlWhole.Text = ""; 
string url = CBUrl.SelectedItem.ToString().Trim(); 
System.Net.WebClient aWebClient = new System.Net.WebClient(); 
aWebClient.Encoding = System.Text.Encoding.Default; 
string html = aWebClient.DownloadString(url); 
txtHtmlWhole.Text = html; 
} 
catch (Exception ex) 
{ 
MessageBox.Show(ex.Message); 
} 
#endregion
#region 分析网页html节点 
Lexer lexer = new Lexer(this.txtHtmlWhole.Text); 
Parser parser = new Parser(lexer); 
NodeList htmlNodes = parser.Parse(null); 
this.treeView1.Nodes.Clear(); 
this.treeView1.Nodes.Add("root"); 
TreeNode treeRoot = this.treeView1.Nodes[0]; 
for (int i = 0; i < htmlNodes.Count; i++) 
{ 
this.RecursionHtmlNode(treeRoot, htmlNodes[i], false); 
}
#endregion
}
private void RecursionHtmlNode(TreeNode treeNode, INode htmlNode, bool siblingRequired) 
{ 
if (htmlNode == null || treeNode == null) return;
TreeNode current = treeNode; 
TreeNode content ; 
//current node 
if (htmlNode is ITag) 
{ 
ITag tag = (htmlNode as ITag); 
if (!tag.IsEndTag()) 
{ 
string nodeString = tag.TagName; 
if (tag.Attributes != null && tag.Attributes.Count > 0) 
{ 
if (tag.Attributes["ID"] != null) 
{ 
nodeString = nodeString + " { id=\"" + tag.Attributes["ID"].ToString() + "\" }"; 
} 
if (tag.Attributes["HREF"] != null) 
{ 
nodeString = nodeString + " { href=\"" + tag.Attributes["HREF"].ToString() + "\" }"; 
} 
}
current = new TreeNode(nodeString); 
treeNode.Nodes.Add(current); 
} 
} 
//获取节点间的内容 
if (htmlNode.Children != null && htmlNode.Children.Count > 0) 
{ 
this.RecursionHtmlNode(current, htmlNode.FirstChild, true); 
content = new TreeNode(htmlNode.FirstChild.GetText()); 
treeNode.Nodes.Add(content); 
} 
//the sibling nodes 
if (siblingRequired) 
{ 
INode sibling = htmlNode.NextSibling; 
while (sibling != null) 
{ 
this.RecursionHtmlNode(treeNode, sibling, false); 
sibling = sibling.NextSibling; 
} 
} 
} 
private void AddUrl() 
{ 
CBUrl.Items.Add("http://www.hao123.com"); 
CBUrl.Items.Add("http://www.sina.com"); 
CBUrl.Items.Add("http://www.heuet.edu.cn"); 
} 
} 
}

运行效果:

C#下解析HTML的兩種方法介紹

实现取来很容易,结合Winista.Htmlparser源码很快就可以实现想要的效果。

小结:
简单介绍了两种C#解析Html的的方法,大家有什么其他好的方法还望指教。

更多C#下解析HTML的兩種方法介紹相关文章请关注PHP中文网!


陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
C#總是與.NET關聯嗎?探索替代方案C#總是與.NET關聯嗎?探索替代方案May 04, 2025 am 12:06 AM

C#並不總是與.NET捆綁在一起。 1)C#可以在Mono運行時環境中運行,適用於Linux和macOS。 2)在Unity遊戲引擎中,C#用於腳本編寫,不依賴.NET框架。 3)C#還可用於嵌入式系統開發,如.NETMicroFramework。

.NET生態系統:C#的角色和超越.NET生態系統:C#的角色和超越May 03, 2025 am 12:04 AM

C#在.NET生態系統中扮演核心角色,是開發者的首選語言。 1)C#提供高效、易用的編程方式,結合C、C 和Java的優點。 2)通過.NET運行時(CLR)執行,確保跨平台高效運行。 3)C#支持從基本到高級的用法,如LINQ和異步編程。 4)優化和最佳實踐包括使用StringBuilder和異步編程,提高性能和可維護性。

C#作為.NET語言:生態系統的基礎C#作為.NET語言:生態系統的基礎May 02, 2025 am 12:01 AM

C#是微軟在2000年發布的編程語言,旨在結合C 的強大功能和Java的簡潔性。 1.C#是一種類型安全、面向對象的編程語言,支持封裝、繼承和多態。 2.C#的編譯過程將代碼轉化為中間語言(IL),然後在.NET運行時環境(CLR)中即時編譯成機器碼執行。 3.C#的基本用法包括變量聲明、控制流和函數定義,而高級用法涵蓋異步編程、LINQ和委託等。 4.常見錯誤包括類型不匹配和空引用異常,可通過調試器、異常處理和日誌記錄來調試。 5.性能優化建議包括使用LINQ、異步編程和提高代碼可讀性。

c#vs. .net:澄清關鍵差異和相似之處c#vs. .net:澄清關鍵差異和相似之處May 01, 2025 am 12:12 AM

C#是一種編程語言,而.NET是一個軟件框架。 1.C#由微軟開發,適用於多平台開發。 2..NET提供類庫和運行時環境,支持多語言。兩者協同工作,構建現代應用。

超越炒作:評估C#.NET的當前作用超越炒作:評估C#.NET的當前作用Apr 30, 2025 am 12:06 AM

C#.NET是一個強大的開發平台,結合了C#語言和.NET框架的優勢。 1)它廣泛應用於企業應用、Web開發、遊戲開發和移動應用開發。 2)C#代碼編譯成中間語言後由.NET運行時環境執行,支持垃圾回收、類型安全和LINQ查詢。 3)使用示例包括基本控制台輸出和高級LINQ查詢。 4)常見錯誤如空引用和類型轉換錯誤可以通過調試器和日誌記錄解決。 5)性能優化建議包括異步編程和優化LINQ查詢。 6)儘管面臨競爭,C#.NET通過不斷創新保持其重要地位。

C#.NET的未來:趨勢和機遇C#.NET的未來:趨勢和機遇Apr 29, 2025 am 12:02 AM

C#.NET的未來趨勢主要集中在雲計算、微服務、AI和機器學習集成以及跨平台開發三個方面。 1)雲計算和微服務:C#.NET通過Azure平台優化雲環境表現,支持構建高效微服務架構。 2)AI和機器學習集成:借助ML.NET庫,C#開發者可在應用中嵌入機器學習模型,推動智能化應用發展。 3)跨平台開發:通過.NETCore和.NET5 ,C#應用可在Windows、Linux和macOS上運行,擴展部署範圍。

C#.NET開發今天:趨勢和最佳實踐C#.NET開發今天:趨勢和最佳實踐Apr 28, 2025 am 12:25 AM

C#.NET開發的最新動態和最佳實踐包括:1.異步編程提高應用響應性,使用async和await關鍵字簡化非阻塞代碼;2.LINQ提供強大查詢功能,通過延遲執行和表達式樹高效操作數據;3.性能優化建議包括使用異步編程、優化LINQ查詢、合理管理內存、提升代碼可讀性和維護性、以及編寫單元測試。

C#.NET:使用.NET生態系統構建應用程序C#.NET:使用.NET生態系統構建應用程序Apr 27, 2025 am 12:12 AM

如何利用.NET構建應用?使用.NET構建應用可以通過以下步驟實現:1)了解.NET基礎知識,包括C#語言和跨平台開發支持;2)學習核心概念,如.NET生態系統的組件和工作原理;3)掌握基本和高級用法,從簡單控制台應用到復雜的WebAPI和數據庫操作;4)熟悉常見錯誤與調試技巧,如配置和數據庫連接問題;5)應用性能優化與最佳實踐,如異步編程和緩存。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具