搜索
首页后端开发C#.Net教程C#如何使用正则表达式抓取网站信息的代码案例

这篇文章主要介绍了C#使用正则表达式抓取网站信息,结合实例形式分析了C#针对网页信息的正则抓取操作相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了C#使用正则表达式抓取网站信息的方法。分享给大家供大家参考,具体如下:

这里以抓取京东商城商品详情为例。

1、创建JdRobber.cs程序类

public class JdRobber
{
  /// <summary>
  /// 判断是否京东链接
  /// </summary>
  /// <param name="param"></param>
  /// <returns></returns>
  public bool ValidationUrl(string url)
  {
    bool result = false;
    if (!String.IsNullOrEmpty(url))
    {
      Regex regex = new Regex(@"^http://item.jd.com/\d+.html$");
      Match match = regex.Match(url);
      if (match.Success)
      {
        result = true;
      }
    }
    return result;
  }
  /// <summary>
  /// 抓取京东信息
  /// </summary>
  /// <param name="param"></param>
  /// <returns></returns>
  public void GetInfo(string url)
  {
    if (ValidationUrl(url))
    {
      string htmlStr = WebHandler.GetHtmlStr(url, "Default");
      if (!String.IsNullOrEmpty(htmlStr))
      {
        string pattern = "";     //正则表达式
        string sourceWebID = "";   //商品关键ID
        string title = "";      //标题
        decimal price = 0;      //价格
        string picName = "";     //图片
        //提取商品关键ID
        pattern = @"http://item.jd.com/(?<Object>\d+).html";
        sourceWebID = WebHandler.GetRegexText(url, pattern);
        //提取标题
        pattern = @"<p.*id=\""name\"".*>[\s\S]*<h1>(?<Object>.*?)</h1>";
        title = WebHandler.GetRegexText(htmlStr, pattern);
        //提取图片
        int begin = htmlStr.IndexOf("<p id=\"spec-n1\"");
        int end = htmlStr.IndexOf("</p>", begin + 1);
        if (begin > 0 && end > 0)
        {
          string subPicHtml = htmlStr.Substring(begin, end - begin);
          pattern = @"<img.*src=\""(?<Object>.*?)\"".*/>";
          picName = WebHandler.GetRegexText(subPicHtml, pattern);
        }
        //提取价格
        if (sourceWebID != "")
        {
          string priceUrl = @"http://p.3.cn/prices/get?skuid=J_" + sourceWebID + "&type=1";
          string priceJson = WebHandler.GetHtmlStr(priceUrl, "Default");
          pattern = @"\""p\"":\""(?<Object>\d+(\.\d{1,2})?)\""";
          price = WebHandler.GetValidPrice(WebHandler.GetRegexText(priceJson, pattern));
        }
        Console.WriteLine("商品名称:{0}", title);
        Console.WriteLine("图片:{0}", picName);
        Console.WriteLine("价格:{0}", price);
      }
    }
  }
}

2、创建WebHandler.cs公共方法类

/// <summary>
/// 公共方法类
/// </summary>
public class WebHandler
{
  /// <summary>
  /// 获取网页的HTML码
  /// </summary>
  /// <param name="url">链接地址</param>
  /// <param name="encoding">编码类型</param>
  /// <returns></returns>
  public static string GetHtmlStr(string url, string encoding)
  {
    string htmlStr = "";
    try
    {
      if (!String.IsNullOrEmpty(url))
      {
        WebRequest request = WebRequest.Create(url); //实例化WebRequest对象
        WebResponse response = request.GetResponse(); //创建WebResponse对象
        Stream datastream = response.GetResponseStream(); //创建流对象
        Encoding ec = Encoding.Default;
        if (encoding == "UTF8")
        {
          ec = Encoding.UTF8;
        }
        else if (encoding == "Default")
        {
          ec = Encoding.Default;
        }
        StreamReader reader = new StreamReader(datastream, ec);
        htmlStr = reader.ReadToEnd(); //读取数据
        reader.Close();
        datastream.Close();
        response.Close();
      }
    }
    catch { }
    return htmlStr;
  }
  /// <summary>
  /// 获取正则表达式中的关键字
  /// </summary>
  /// <param name="input">文本</param>
  /// <param name="pattern">表达式</param>
  /// <returns></returns>
  public static string GetRegexText(string input, string pattern)
  {
    string result = "";
    if (!String.IsNullOrEmpty(input) && !String.IsNullOrEmpty(pattern))
    {
      Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
      Match match = regex.Match(input);
      if (match.Success)
      {
        result = match.Groups["Object"].Value;
      }
    }
    return result;
  }
  /// <summary>
  /// 返回有效价格
  /// </summary>
  /// <param name="strPrice"></param>
  /// <returns></returns>
  public static decimal GetValidPrice(string strPrice)
  {
    decimal price = 0;
    try
    {
      if (!String.IsNullOrEmpty(strPrice))
      {
        Regex regex = new Regex(@"^\d+(\.\d{1,2})?$", RegexOptions.IgnoreCase);
        Match match = regex.Match(strPrice);
        if (match.Success)
        {
          price = decimal.Parse(strPrice);
        }
      }
    }
    catch { }
    return price;
  }
}

以上是C#如何使用正则表达式抓取网站信息的代码案例的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
C#.NET与未来:适应新技术C#.NET与未来:适应新技术Apr 14, 2025 am 12:06 AM

C#和.NET通过不断的更新和优化,适应了新兴技术的需求。1)C#9.0和.NET5引入了记录类型和性能优化。2).NETCore增强了云原生和容器化支持。3)ASP.NETCore与现代Web技术集成。4)ML.NET支持机器学习和人工智能。5)异步编程和最佳实践提升了性能。

c#.net适合您吗?评估其适用性c#.net适合您吗?评估其适用性Apr 13, 2025 am 12:03 AM

c#.netissutableforenterprise-levelapplications withemofrosoftecosystemdueToItsStrongTyping,richlibraries,androbustperraries,androbustperformance.however,itmaynotbeidealfoross-platement forment forment forment forvepentment offependment dovelopment toveloperment toveloperment whenrawspeedsportor whenrawspeedseedpolitical politionalitable,

.NET中的C#代码:探索编程过程.NET中的C#代码:探索编程过程Apr 12, 2025 am 12:02 AM

C#在.NET中的编程过程包括以下步骤:1)编写C#代码,2)编译为中间语言(IL),3)由.NET运行时(CLR)执行。C#在.NET中的优势在于其现代化语法、强大的类型系统和与.NET框架的紧密集成,适用于从桌面应用到Web服务的各种开发场景。

C#.NET:探索核心概念和编程基础知识C#.NET:探索核心概念和编程基础知识Apr 10, 2025 am 09:32 AM

C#是一种现代、面向对象的编程语言,由微软开发并作为.NET框架的一部分。1.C#支持面向对象编程(OOP),包括封装、继承和多态。2.C#中的异步编程通过async和await关键字实现,提高应用的响应性。3.使用LINQ可以简洁地处理数据集合。4.常见错误包括空引用异常和索引超出范围异常,调试技巧包括使用调试器和异常处理。5.性能优化包括使用StringBuilder和避免不必要的装箱和拆箱。

测试C#.NET应用程序:单元,集成和端到端测试测试C#.NET应用程序:单元,集成和端到端测试Apr 09, 2025 am 12:04 AM

C#.NET应用的测试策略包括单元测试、集成测试和端到端测试。1.单元测试确保代码的最小单元独立工作,使用MSTest、NUnit或xUnit框架。2.集成测试验证多个单元组合的功能,常用模拟数据和外部服务。3.端到端测试模拟用户完整操作流程,通常使用Selenium进行自动化测试。

高级C#.NET教程:ACE您的下一次高级开发人员面试高级C#.NET教程:ACE您的下一次高级开发人员面试Apr 08, 2025 am 12:06 AM

C#高级开发者面试需要掌握异步编程、LINQ、.NET框架内部工作原理等核心知识。1.异步编程通过async和await简化操作,提升应用响应性。2.LINQ以SQL风格操作数据,需注意性能。3..NET框架的CLR管理内存,垃圾回收需谨慎使用。

C#.NET面试问题和答案:提高您的专业知识C#.NET面试问题和答案:提高您的专业知识Apr 07, 2025 am 12:01 AM

C#.NET面试问题和答案包括基础知识、核心概念和高级用法。1)基础知识:C#是微软开发的面向对象语言,主要用于.NET框架。2)核心概念:委托和事件允许动态绑定方法,LINQ提供强大查询功能。3)高级用法:异步编程提高响应性,表达式树用于动态代码构建。

使用C#.NET建筑微服务:建筑师实用指南使用C#.NET建筑微服务:建筑师实用指南Apr 06, 2025 am 12:08 AM

C#.NET是构建微服务的热门选择,因为其生态系统强大且支持丰富。1)使用ASP.NETCore创建RESTfulAPI,处理订单创建和查询。2)利用gRPC实现微服务间的高效通信,定义和实现订单服务。3)通过Docker容器化微服务,简化部署和管理。

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器