Python は JD 製品カテゴリとリンクをクロールします-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python は JD 製品カテゴリとリンクをクロールします

高洛峰

Feb 25, 2017 am 10:05 AM

前書き

この記事の主な知識点は、Python の BeautifulSoup を使用して多層トラバーサルを実行することです。 BeautifulSoup进行多层的遍历。

Python は JD 製品カテゴリとリンクをクロールします

如图所示。只是一个简单的哈，不是爬取里面的隐藏的东西。

示例代码

from bs4 import BeautifulSoup as bs
import requests
headers = {
  "host": "www.jd.com",
  "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
  "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
  }
session = requests.session()
def get_url():
  renspned = bs(session.get(&#39;http://www.jd.com/&#39;,headers = headers).text,&#39;html.parser&#39;)
  for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
    print(i.get_text(),&#39;:&#39;,i.get(&#39;href&#39;))
get_url()

运行这段代码以及达到了我们的目的。

Python は JD 製品カテゴリとリンクをクロールします

我们来解读一下这段代码。

首先我们要访问到京东的首页。

然后通过BeautifulSoup对访问到的首页进行解析。

这个时候，我们就要定位元素，来获取我们需要的东西了。

在浏览器中通过F12，我们可以看到下图所示的东西：

Python は JD 製品カテゴリとリンクをクロールします

我们来看看下面这句代码：

for i in renspned.find("p", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

这一行代码完全满足我们的需求，首先用find方法，定位到了class=“dd-inner”的p，然后使用find_all对该标签下所有的a标签。

最后，我想打印出所有的商品分类以及对应的链接，于是，我使用了i.get_text()和i.get('href')的方法终于获取到了商品分类和对应的链接。

总结

其实不是很难，主要是要用对方法。笔者因为是初学方法没有用对。花了差不多两天时间才搞定。这里也是告诉大家，可以使用find().find_all()

Python は製品カテゴリとリンクをクロールします

写真のように。単純なハッキングであり、内部に隠されたものをクロールするわけではありません。

サンプルコード

🎜

🎜rrreee🎜🎜🎜このコードを実行して目的を達成します。 🎜

Python は製品カテゴリとリンクをクロールします 🎜🎜🎜このコードを解釈してみましょう。 🎜🎜🎜🎜まず、JD.com のホームページにアクセスする必要があります。 🎜🎜🎜次に、BeautifulSoup を使用して、訪問したホームページを解析します。 🎜🎜🎜現時点では、必要なものを取得するために要素を見つける必要があります。 🎜🎜🎜ブラウザで F12 を使用すると、下の図に示されている内容が表示されます: 🎜

Python は製品カテゴリをクロールしますとリンク 🎜🎜次のコードを見てみましょう: 🎜

🎜rrreee🎜🎜🎜このコード行は私たちのニーズを完全に満たしています。最初に find メソッドを使用します。 class="dd-inner" を使用して p を検索し、このタグの下にあるすべての a タグに対して find_all を使用します。 🎜🎜🎜最後に、すべての商品カテゴリーと対応するリンクを出力したかったので、最後に i.get_text() と i.get('href') メソッドを使用しました。製品分類と対応リンクを取得しました。 🎜🎜🎜まとめ🎜🎜🎜実際には難しいことではありません。重要なのは、正しい方法を使用することです。筆者は初心者だったので正しい方法を使用していませんでした。完成するまでにほぼ2日かかりました。ここでは、find().find_all() メソッドを使用してマルチレイヤートラバーサルを実行できることも説明します。上記は、Python を使用して JD.com の製品カテゴリとリンクをクロールしたときの私の経験の一部です。Python を学習しているすべての人に役立つことを願っています。 🎜🎜🎜🎜🎜JD.com の製品カテゴリとリンクをクロールする Python に関連するその他の記事については、PHP 中国語 Web サイトに注目してください。 🎜

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonアレイをどのようにスライスしますか？May 01, 2025 am 12:18 AM

Pythonリストスライスの基本的な構文はリストです[start：stop：step]。 1.STARTは最初の要素インデックス、2。ストップは除外された最初の要素インデックスであり、3.ステップは要素間のステップサイズを決定します。スライスは、データを抽出するためだけでなく、リストを変更および反転させるためにも使用されます。

どのような状況で、リストは配列よりもパフォーマンスが向上しますか？May 01, 2025 am 12:06 AM

ListSoutPerformArraysIn：1）ダイナミシジョンアンドフレーケンティオン/削除、2）ストーリングヘテロゼンダタ、および3）メモリ効率の装飾、ButmayhaveslightPerformancostsinceNASOPERATIONS。

PythonアレイをPythonリストに変換するにはどうすればよいですか？May 01, 2025 am 12:05 AM

toconvertapythonarraytoalist、usetheList（）constructororageneratorexpression.1）importhearraymoduleandcreateanarray.2）useList（arr）または[xforxinarr] toconvertoalistは、largedatatessを変えることを伴うものです。

Pythonにリストが存在する場合、配列を使用する目的は何ですか？May 01, 2025 am 12:04 AM

choosearraysoverlistsinperbetterperformance andmemoryeficiencyspecificscenarios.1）largeNumericaldatasets：Araysreducememoryusage.2）パフォーマンス - クリティカル操作：ArraysOfferSpeedBoostsfortsfortsclikeappendedoring.3）タイプリー：Arrayesenforc

リストの要素と配列を繰り返す方法を説明します。May 01, 2025 am 12:01 AM

Pythonでは、ループに使用し、列挙し、包括的なリストを通過することができます。 Javaでは、従来のループを使用し、ループを強化してアレイを通過することができます。 1。Pythonリストトラバーサル方法は、ループ、列挙、およびリスト理解のためのものです。 2。Javaアレイトラバーサル法には、従来のループとループ用の強化が含まれます。

Python Switchステートメントとは何ですか？Apr 30, 2025 pm 02:08 PM

この記事では、バージョン3.10で導入されたPythonの新しい「マッチ」ステートメントについて説明します。これは、他の言語のスイッチステートメントに相当するものです。コードの読みやすさを向上させ、従来のif-elif-elよりもパフォーマンスの利点を提供します

Pythonの例外グループとは何ですか？Apr 30, 2025 pm 02:07 PM

Python 3.11の例外グループは、複数の例外を同時に処理することで、同時シナリオと複雑な操作でエラー管理を改善します。

Pythonの関数注釈とは何ですか？Apr 30, 2025 pm 02:06 PM

Pythonの関数注釈は、タイプチェック、ドキュメント、およびIDEサポートの関数にメタデータを追加します。それらはコードの読みやすさ、メンテナンスを強化し、API開発、データサイエンス、ライブラリの作成において重要です。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、