cari
Rumahpembangunan bahagian belakangTutorial C#.Net使用C#获取网页HTML源码的例子

最近在做一个项目,其中一个功能是根据一个URL地址,获取到网页的源代码。在ASP.NET(C#)中,获取网页源代码貌似有很多种方法,我随便搞了一个简单的WebClient,非常简单容易。但后面一个非常恼火的问题出来了,那就是中文的乱码。

通过仔细研究,中文的网页不外乎GB2312和UTF-8这两种编码。于是有了下面这段代码:

       /// <summary>
       /// 根据网址的URL,获取源代码HTML
       /// </summary>
       /// <param name="url"></param>
       /// <returns></returns>
       public static string GetHtmlByUrl(string url)
       {
           using (WebClient wc = new WebClient())
           {
               try
               {
                   wc.UseDefaultCredentials = true;
                   wc.Proxy = new WebProxy();
                   wc.Proxy.Credentials = CredentialCache.DefaultCredentials;
                   wc.Credentials = System.Net.CredentialCache.DefaultCredentials;
                   byte[] bt = wc.DownloadData(url);
                   string txt = System.Text.Encoding.GetEncoding("GB2312").GetString(bt);
                   switch (GetCharset(txt).ToUpper())
                   {
                       case "UTF-8":
                           txt = System.Text.Encoding.UTF8.GetString(bt);
                           break;
                       case "UNICODE":
                           txt = System.Text.Encoding.Unicode.GetString(bt);
                           break;
                       default:
                           break;
                   }
                   return txt;
               }
               catch (Exception ex)
               {
                   return null;
               }
           }
       }

稍微解释一下,这里使用了WebClient创建了一个wc对象(这命名有点尴尬了)。然后调用wc对象的DownloadData方法,传入URL值,返回一个字节数组。默认使用GB2312来读取这个字节数组,把它转换成字符串。从网页源代码的字符串中查找网页的编码格式的特征字符,如找到charset="utf-8"这样的信息,来判断当前网页的编码格式。

GetCharset这个函数就是来获取当前网页的编码格式的,具体代码如下:

      /// <summary>
       /// 从HTML中获取获取charset
       /// </summary>
       /// <param name="html"></param>
       /// <returns></returns>
       public static string GetCharset(string html)
       {
           string charset = "";
           Regex regCharset = new Regex(@"content=[""'].*\s*charset\b\s*=\s*""?(?<charset>[^""']*)", RegexOptions.IgnoreCase);
           if (regCharset.IsMatch(html))
           {
               charset = regCharset.Match(html).Groups["charset"].Value;
           }
           if (charset.Equals(""))
           {
               regCharset = new Regex(@"<\s*meta\s*charset\s*=\s*[""']?(?<charset>[^""']*)", RegexOptions.IgnoreCase);
               if (regCharset.IsMatch(html))
               {
                   charset = regCharset.Match(html).Groups["charset"].Value;
               }
           }
           return charset;
       }


更多使用C#获取网页HTML源码的例子相关文章请关注PHP中文网!


Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Membangun dengan C# .NET: Panduan dan contoh praktikalMembangun dengan C# .NET: Panduan dan contoh praktikalMay 12, 2025 am 12:16 AM

C# dan .NET menyediakan ciri -ciri yang kuat dan persekitaran pembangunan yang cekap. 1) C# adalah bahasa pengaturcaraan yang berorientasikan objek moden yang menggabungkan kuasa C dan kesederhanaan Jawa. 2) Rangka kerja .NET adalah platform untuk membina dan menjalankan aplikasi, menyokong pelbagai bahasa pengaturcaraan. 3) Kelas dan objek dalam C# adalah teras pengaturcaraan berorientasikan objek. Kelas menentukan data dan tingkah laku, dan objek adalah contoh kelas. 4) Mekanisme pengumpulan sampah .NET secara automatik menguruskan memori untuk memudahkan kerja pemaju. 5) C# dan .NET Menyediakan fungsi operasi fail yang kuat, menyokong pengaturcaraan segerak dan tidak segerak. 6) Kesilapan biasa boleh diselesaikan melalui debugger, pembalakan dan pengendalian pengecualian. 7) Pengoptimuman prestasi dan amalan terbaik termasuk menggunakan StringBuild

C# .NET: Memahami Rangka Kerja Microsoft.C# .NET: Memahami Rangka Kerja Microsoft.May 11, 2025 am 12:17 AM

.NetFramework adalah platform pembangunan silang bahasa, silang platform yang menyediakan model pengaturcaraan yang konsisten dan persekitaran runtime yang kuat. 1) Ia terdiri daripada CLR dan FCL, yang menguruskan memori dan benang, dan FCL menyediakan fungsi pra-dibina. 2) Contoh penggunaan termasuk fail membaca dan pertanyaan LINQ. 3) Kesilapan biasa melibatkan pengecualian yang tidak diawasi dan kebocoran memori, dan perlu diselesaikan menggunakan alat debugging. 4) Pengoptimuman prestasi dapat dicapai melalui pengaturcaraan dan caching asynchronous, dan mengekalkan kebolehbacaan kod dan pemeliharaan adalah kunci.

Panjang umur c# .net: alasan untuk popularitinya yang kekalPanjang umur c# .net: alasan untuk popularitinya yang kekalMay 10, 2025 am 12:12 AM

Sebab-sebab C#.NET untuk kekal menarik termasuk prestasi cemerlangnya, ekosistem yang kaya, sokongan komuniti yang kuat dan keupayaan pembangunan silang platform. 1) prestasi cemerlang dan sesuai untuk aplikasi peringkat perusahaan dan pembangunan permainan; 2) Rangka kerja .NET menyediakan pelbagai perpustakaan kelas dan alat untuk menyokong pelbagai bidang pembangunan; 3) ia mempunyai komuniti pemaju aktif dan sumber pembelajaran yang kaya; 4) .Netcore menyedari pembangunan silang platform dan memperluaskan senario aplikasi.

Menguasai C# .NET Reka Bentuk Corak: Dari Singleton ke Suntikan KetergantunganMenguasai C# .NET Reka Bentuk Corak: Dari Singleton ke Suntikan KetergantunganMay 09, 2025 am 12:15 AM

Corak reka bentuk dalam C#.NET termasuk corak singleton dan suntikan ketergantungan. 1. Mod Singleton memastikan bahawa hanya ada satu contoh kelas, yang sesuai untuk senario di mana titik akses global diperlukan, tetapi perhatian harus dibayar kepada masalah keselamatan dan penyalahgunaan benang. 2. Suntikan Ketergantungan meningkatkan fleksibiliti dan kesesuaian kod dengan menyuntik kebergantungan. Ia sering digunakan untuk suntikan pembina, tetapi perlu untuk mengelakkan penggunaan berlebihan untuk meningkatkan kerumitan.

C# .NET di Dunia Moden: Aplikasi dan IndustriC# .NET di Dunia Moden: Aplikasi dan IndustriMay 08, 2025 am 12:08 AM

C#.NET digunakan secara meluas di dunia moden dalam bidang pembangunan permainan, perkhidmatan kewangan, Internet Perkara dan Pengkomputeran Awan. 1) Dalam pembangunan permainan, gunakan C# untuk program melalui enjin Perpaduan. 2) Dalam bidang perkhidmatan kewangan, C#.NET digunakan untuk membangunkan sistem perdagangan berprestasi tinggi dan alat analisis data. 3) Dari segi pengkomputeran IoT dan awan, C#.NET menyediakan sokongan melalui perkhidmatan Azure untuk membangunkan logik kawalan peranti dan pemprosesan data.

C# .NET Framework vs. NET Core/5/6: Apa Perbezaannya?C# .NET Framework vs. NET Core/5/6: Apa Perbezaannya?May 07, 2025 am 12:06 AM

.NetFrameworkisWindows-centric, while.netcore/5/6supportscross-platformdevelopment.1) .netframework, sejak2002, isidealforwindows ApplicationsbutlimitedIncross-platformcapabilities.2) .netcore, from2016, andititsevolutions (.net5/6) tawaranbetterperformance, silang-

Komuniti C# .NET Pemaju: Sumber dan SokonganKomuniti C# .NET Pemaju: Sumber dan SokonganMay 06, 2025 am 12:11 AM

Komuniti pemaju C#.NET menyediakan sumber dan sokongan yang kaya, termasuk: 1. Dokumen rasmi Microsoft, 2. Sumber -sumber ini membantu pemaju meningkatkan kemahiran pengaturcaraan mereka dari pembelajaran asas ke aplikasi lanjutan.

Kelebihan C# .NET: Ciri, Manfaat, dan Kes GunakanKelebihan C# .NET: Ciri, Manfaat, dan Kes GunakanMay 05, 2025 am 12:01 AM

Kelebihan C#.NET termasuk: 1) ciri bahasa, seperti pengaturcaraan asynchronous memudahkan pembangunan; 2) prestasi dan kebolehpercayaan, meningkatkan kecekapan melalui kompilasi JIT dan mekanisme pengumpulan sampah; 3) sokongan silang platform, .Netcore memperluaskan senario aplikasi; 4) Pelbagai aplikasi praktikal, dengan prestasi cemerlang dari web ke desktop dan pembangunan permainan.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Nordhold: Sistem Fusion, dijelaskan
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

SublimeText3 versi Inggeris

SublimeText3 versi Inggeris

Disyorkan: Versi Win, menyokong gesaan kod!

PhpStorm versi Mac

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna