最近在做一个项目,其中一个功能是根据一个URL地址,获取到网页的源代码。在ASP.NET(C#)中,获取网页源代码貌似有很多种方法,我随便搞了一个简单的WebClient,非常简单容易。但后面一个非常恼火的问题出来了,那就是中文的乱码。
通过仔细研究,中文的网页不外乎GB2312和UTF-8这两种编码。于是有了下面这段代码:
/// <summary> /// 根据网址的URL,获取源代码HTML /// </summary> /// <param name="url"></param> /// <returns></returns> public static string GetHtmlByUrl(string url) { using (WebClient wc = new WebClient()) { try { wc.UseDefaultCredentials = true; wc.Proxy = new WebProxy(); wc.Proxy.Credentials = CredentialCache.DefaultCredentials; wc.Credentials = System.Net.CredentialCache.DefaultCredentials; byte[] bt = wc.DownloadData(url); string txt = System.Text.Encoding.GetEncoding("GB2312").GetString(bt); switch (GetCharset(txt).ToUpper()) { case "UTF-8": txt = System.Text.Encoding.UTF8.GetString(bt); break; case "UNICODE": txt = System.Text.Encoding.Unicode.GetString(bt); break; default: break; } return txt; } catch (Exception ex) { return null; } } }
稍微解释一下,这里使用了WebClient创建了一个wc对象(这命名有点尴尬了)。然后调用wc对象的DownloadData方法,传入URL值,返回一个字节数组。默认使用GB2312来读取这个字节数组,把它转换成字符串。从网页源代码的字符串中查找网页的编码格式的特征字符,如找到charset="utf-8"这样的信息,来判断当前网页的编码格式。
GetCharset这个函数就是来获取当前网页的编码格式的,具体代码如下:
/// <summary> /// 从HTML中获取获取charset /// </summary> /// <param name="html"></param> /// <returns></returns> public static string GetCharset(string html) { string charset = ""; Regex regCharset = new Regex(@"content=[""'].*\s*charset\b\s*=\s*""?(?<charset>[^""']*)", RegexOptions.IgnoreCase); if (regCharset.IsMatch(html)) { charset = regCharset.Match(html).Groups["charset"].Value; } if (charset.Equals("")) { regCharset = new Regex(@"<\s*meta\s*charset\s*=\s*[""']?(?<charset>[^""']*)", RegexOptions.IgnoreCase); if (regCharset.IsMatch(html)) { charset = regCharset.Match(html).Groups["charset"].Value; } } return charset; }
更多使用C#获取网页HTML源码的例子相关文章请关注PHP中文网!

C# dan .NET menyediakan ciri -ciri yang kuat dan persekitaran pembangunan yang cekap. 1) C# adalah bahasa pengaturcaraan yang berorientasikan objek moden yang menggabungkan kuasa C dan kesederhanaan Jawa. 2) Rangka kerja .NET adalah platform untuk membina dan menjalankan aplikasi, menyokong pelbagai bahasa pengaturcaraan. 3) Kelas dan objek dalam C# adalah teras pengaturcaraan berorientasikan objek. Kelas menentukan data dan tingkah laku, dan objek adalah contoh kelas. 4) Mekanisme pengumpulan sampah .NET secara automatik menguruskan memori untuk memudahkan kerja pemaju. 5) C# dan .NET Menyediakan fungsi operasi fail yang kuat, menyokong pengaturcaraan segerak dan tidak segerak. 6) Kesilapan biasa boleh diselesaikan melalui debugger, pembalakan dan pengendalian pengecualian. 7) Pengoptimuman prestasi dan amalan terbaik termasuk menggunakan StringBuild

.NetFramework adalah platform pembangunan silang bahasa, silang platform yang menyediakan model pengaturcaraan yang konsisten dan persekitaran runtime yang kuat. 1) Ia terdiri daripada CLR dan FCL, yang menguruskan memori dan benang, dan FCL menyediakan fungsi pra-dibina. 2) Contoh penggunaan termasuk fail membaca dan pertanyaan LINQ. 3) Kesilapan biasa melibatkan pengecualian yang tidak diawasi dan kebocoran memori, dan perlu diselesaikan menggunakan alat debugging. 4) Pengoptimuman prestasi dapat dicapai melalui pengaturcaraan dan caching asynchronous, dan mengekalkan kebolehbacaan kod dan pemeliharaan adalah kunci.

Sebab-sebab C#.NET untuk kekal menarik termasuk prestasi cemerlangnya, ekosistem yang kaya, sokongan komuniti yang kuat dan keupayaan pembangunan silang platform. 1) prestasi cemerlang dan sesuai untuk aplikasi peringkat perusahaan dan pembangunan permainan; 2) Rangka kerja .NET menyediakan pelbagai perpustakaan kelas dan alat untuk menyokong pelbagai bidang pembangunan; 3) ia mempunyai komuniti pemaju aktif dan sumber pembelajaran yang kaya; 4) .Netcore menyedari pembangunan silang platform dan memperluaskan senario aplikasi.

Corak reka bentuk dalam C#.NET termasuk corak singleton dan suntikan ketergantungan. 1. Mod Singleton memastikan bahawa hanya ada satu contoh kelas, yang sesuai untuk senario di mana titik akses global diperlukan, tetapi perhatian harus dibayar kepada masalah keselamatan dan penyalahgunaan benang. 2. Suntikan Ketergantungan meningkatkan fleksibiliti dan kesesuaian kod dengan menyuntik kebergantungan. Ia sering digunakan untuk suntikan pembina, tetapi perlu untuk mengelakkan penggunaan berlebihan untuk meningkatkan kerumitan.

C#.NET digunakan secara meluas di dunia moden dalam bidang pembangunan permainan, perkhidmatan kewangan, Internet Perkara dan Pengkomputeran Awan. 1) Dalam pembangunan permainan, gunakan C# untuk program melalui enjin Perpaduan. 2) Dalam bidang perkhidmatan kewangan, C#.NET digunakan untuk membangunkan sistem perdagangan berprestasi tinggi dan alat analisis data. 3) Dari segi pengkomputeran IoT dan awan, C#.NET menyediakan sokongan melalui perkhidmatan Azure untuk membangunkan logik kawalan peranti dan pemprosesan data.

.NetFrameworkisWindows-centric, while.netcore/5/6supportscross-platformdevelopment.1) .netframework, sejak2002, isidealforwindows ApplicationsbutlimitedIncross-platformcapabilities.2) .netcore, from2016, andititsevolutions (.net5/6) tawaranbetterperformance, silang-

Komuniti pemaju C#.NET menyediakan sumber dan sokongan yang kaya, termasuk: 1. Dokumen rasmi Microsoft, 2. Sumber -sumber ini membantu pemaju meningkatkan kemahiran pengaturcaraan mereka dari pembelajaran asas ke aplikasi lanjutan.

Kelebihan C#.NET termasuk: 1) ciri bahasa, seperti pengaturcaraan asynchronous memudahkan pembangunan; 2) prestasi dan kebolehpercayaan, meningkatkan kecekapan melalui kompilasi JIT dan mekanisme pengumpulan sampah; 3) sokongan silang platform, .Netcore memperluaskan senario aplikasi; 4) Pelbagai aplikasi praktikal, dengan prestasi cemerlang dari web ke desktop dan pembangunan permainan.


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

PhpStorm versi Mac
Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna
