ホームページ  >  記事  >  バックエンド開発  >  C# が正規表現を使用して Web サイト情報をクロールする方法のコード例

C# が正規表現を使用して Web サイト情報をクロールする方法のコード例

黄舟
黄舟オリジナル
2017-03-27 11:47:321475ブラウズ

この記事では主に、http://www.php.cn/wiki/588.html" target="_blank">通常のC#を紹介しますWeb ページ情報を定期的にクローリングするための C# のテクニックについて学習しました。これには一定の参考価値があります。この記事では、C# で正規表現を使用して Web ページ情報をクロールする方法について説明し、共有します。詳細は次のとおりです。

JD.com を取得する例です

製品の詳細

1. JdRobber.cs プログラム クラスを作成します

public class JdRobber
{
  /// <summary>
  /// 判断是否京东链接
  /// </summary>
  /// <param name="param"></param>
  /// <returns></returns>
  public bool ValidationUrl(string url)
  {
    bool result = false;
    if (!String.IsNullOrEmpty(url))
    {
      Regex regex = new Regex(@"^http://item.jd.com/\d+.html$");
      Match match = regex.Match(url);
      if (match.Success)
      {
        result = true;
      }
    }
    return result;
  }
  /// <summary>
  /// 抓取京东信息
  /// </summary>
  /// <param name="param"></param>
  /// <returns></returns>
  public void GetInfo(string url)
  {
    if (ValidationUrl(url))
    {
      string htmlStr = WebHandler.GetHtmlStr(url, "Default");
      if (!String.IsNullOrEmpty(htmlStr))
      {
        string pattern = "";     //正则表达式
        string sourceWebID = "";   //商品关键ID
        string title = "";      //标题
        decimal price = 0;      //价格
        string picName = "";     //图片
        //提取商品关键ID
        pattern = @"http://item.jd.com/(?<Object>\d+).html";
        sourceWebID = WebHandler.GetRegexText(url, pattern);
        //提取标题
        pattern = @"<p.*id=\""name\"".*>[\s\S]*<h1>(?<Object>.*?)</h1>";
        title = WebHandler.GetRegexText(htmlStr, pattern);
        //提取图片
        int begin = htmlStr.IndexOf("<p id=\"spec-n1\"");
        int end = htmlStr.IndexOf("</p>", begin + 1);
        if (begin > 0 && end > 0)
        {
          string subPicHtml = htmlStr.Substring(begin, end - begin);
          pattern = @"<img.*src=\""(?<Object>.*?)\"".*/>";
          picName = WebHandler.GetRegexText(subPicHtml, pattern);
        }
        //提取价格
        if (sourceWebID != "")
        {
          string priceUrl = @"http://p.3.cn/prices/get?skuid=J_" + sourceWebID + "&type=1";
          string priceJson = WebHandler.GetHtmlStr(priceUrl, "Default");
          pattern = @"\""p\"":\""(?<Object>\d+(\.\d{1,2})?)\""";
          price = WebHandler.GetValidPrice(WebHandler.GetRegexText(priceJson, pattern));
        }
        Console.WriteLine("商品名称:{0}", title);
        Console.WriteLine("图片:{0}", picName);
        Console.WriteLine("价格:{0}", price);
      }
    }
  }
}
2. WebHandler.cs パブリック メソッド クラスを作成します

以上がC# が正規表現を使用して Web サイト情報をクロールする方法のコード例の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。