使用C#取得網頁HTML原始碼的例子-C#.Net教程-PHP中文網

首頁

後端開發

C#.Net教程

使用C#取得網頁HTML原始碼的例子

高洛峰

Jan 14, 2017 pm 01:29 PM

最近在做一個項目，其中一個功能是根據一個URL位址，取得到網頁的原始碼。在ASP.NET(C#)中，取得網頁原始碼看起來有很多種方法，我隨便搞了一個簡單的WebClient，非常簡單又容易。但後面一個很惱人的問題出來了，那就是中文的亂碼。

透過仔細研究，中文的網頁不外乎GB2312和UTF-8這兩種編碼。於是有了下面這段程式碼：

       /// <summary>
       /// 根据网址的URL，获取源代码HTML
       /// </summary>
       /// <param name="url"></param>
       /// <returns></returns>
       public static string GetHtmlByUrl(string url)
       {
           using (WebClient wc = new WebClient())
           {
               try
               {
                   wc.UseDefaultCredentials = true;
                   wc.Proxy = new WebProxy();
                   wc.Proxy.Credentials = CredentialCache.DefaultCredentials;
                   wc.Credentials = System.Net.CredentialCache.DefaultCredentials;
                   byte[] bt = wc.DownloadData(url);
                   string txt = System.Text.Encoding.GetEncoding("GB2312").GetString(bt);
                   switch (GetCharset(txt).ToUpper())
                   {
                       case "UTF-8":
                           txt = System.Text.Encoding.UTF8.GetString(bt);
                           break;
                       case "UNICODE":
                           txt = System.Text.Encoding.Unicode.GetString(bt);
                           break;
                       default:
                           break;
                   }
                   return txt;
               }
               catch (Exception ex)
               {
                   return null;
               }
           }
       }

稍微解釋一下，這裡使用了WebClient創建了一個wc物件（這命名有點尷尬了）。然後呼叫wc物件的DownloadData方法，傳入URL值，傳回一個位元組數組。預設使用GB2312來讀取這個位元組數組，把它轉換成字串。從網頁原始碼的字串中尋找網頁的編碼格式的特徵字符，如找到charset="utf-8"這樣的訊息，來判斷目前網頁的編碼格式。

GetCharset這個函數就是來取得目前網頁的編碼格式的，具體程式碼如下：

      /// <summary>
       /// 从HTML中获取获取charset
       /// </summary>
       /// <param name="html"></param>
       /// <returns></returns>
       public static string GetCharset(string html)
       {
           string charset = "";
           Regex regCharset = new Regex(@"content=[""'].*\s*charset\b\s*=\s*""?(?<charset>[^""']*)", RegexOptions.IgnoreCase);
           if (regCharset.IsMatch(html))
           {
               charset = regCharset.Match(html).Groups["charset"].Value;
           }
           if (charset.Equals(""))
           {
               regCharset = new Regex(@"<\s*meta\s*charset\s*=\s*[""']?(?<charset>[^""']*)", RegexOptions.IgnoreCase);
               if (regCharset.IsMatch(html))
               {
                   charset = regCharset.Match(html).Groups["charset"].Value;
               }
           }
           return charset;
       }

更多使用C#取得網頁HTML原始碼的範例相關文章請關注PHP中文網！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

使用C＃.NET開發：實用指南和示例May 12, 2025 am 12:16 AM

C#和.NET提供了強大的功能和高效的開發環境。 1）C#是一種現代、面向對象的編程語言，結合了C 的強大和Java的簡潔性。 2）.NET框架是一個用於構建和運行應用程序的平台，支持多種編程語言。 3）C#中的類和對像是面向對象編程的核心，類定義數據和行為，對像是類的實例。 4）.NET的垃圾回收機制自動管理內存，簡化開發者的工作。 5）C#和.NET提供了強大的文件操作功能，支持同步和異步編程。 6）常見錯誤可以通過調試器、日誌記錄和異常處理來解決。 7）性能優化和最佳實踐包括使用StringBuild

C＃.NET：了解Microsoft .NET框架May 11, 2025 am 12:17 AM

.NETFramework是一個跨語言、跨平台的開發平台，提供一致的編程模型和強大的運行時環境。 1)它由CLR和FCL組成，CLR管理內存和線程，FCL提供預構建功能。 2)使用示例包括讀取文件和LINQ查詢。 3)常見錯誤涉及未處理異常和內存洩漏，需使用調試工具解決。 4)性能優化可通過異步編程和緩存實現，保持代碼可讀性和可維護性是關鍵。

c＃.net的壽命：其持久流行的原因May 10, 2025 am 12:12 AM

C#.NET保持持久吸引力的原因包括其出色的性能、豐富的生態系統、強大的社區支持和跨平台開發能力。 1)性能表現優異，適用於企業級應用和遊戲開發；2).NET框架提供了廣泛的類庫和工具，支持多種開發領域；3)擁有活躍的開發者社區和豐富的學習資源；4).NETCore實現了跨平台開發，擴展了應用場景。