検索
ホームページバックエンド開発Python チュートリアルPython Crawlerを使用するときに、「範囲外」エラーを取得するのはなぜですか?

Python Crawlerを使用するときに、なぜ「範囲外」エラーを取得するのですか?

Python Crawlerの「範囲外のインデックス」エラー:原因と解決策

PythonとBeautifulSoupを使用してWeb Crawlingを使用する場合、 list index out of rangeエラーを発生することがよくあります。この問題は、特に動的なWebページやWebサイト構造の変更を扱う場合、コードが変更されていなくても発生する可能性があります。この記事では、このエラーの原因を分析し、効果的なソリューションを提供します。

このエラーが発生する原因を示すサンプルコードは次のとおりです。

リクエストをインポートします
BS4からBeautifulSoupをインポートします

headers = {'user-agent': 'mozilla/5.0(windows nt 10.0; win64; x64)applewebkit/537.36(khtml、geckoのような)chrome/124.0.0.0 safari/537.36 edg/124.0.0.0'}
Response = requests.get( "https://www.iqiyi.com/ranks1/3/0"、headers = headers)
print(respons.status_code)
Response = Response.Text
スープ= BeautifulSoup(Response、 "html.parser")

def extract_data():
    title = [title.get_text()。sport.find_all( "div"、class _ = "rvi__tit1")のタイトルの場合
    heat = [heat.get_text()。strip()for heat in soup.find_all( "span"、class _ = "rvi__index__num")]]
    紹介= [intro.get_text()。spoup.find_all( "p"、class _ = "rvi__des2")のintroのsrip()。
    タイトル、ヒート、紹介を返します

dif display_data(タイトル、ヒート、紹介):
    min_len = min(len(title)、len(heat)、len(紹介))
    範囲のi(min_len):
        print(f "lanking:{i 1}、title:{title [i]}、人気:{heat [i]}、はじめに:{Introductions [i]}")


__name__ == '__main__'の場合:
    タイトル、熱、紹介= extract_data()
    display_data(タイトル、ヒート、紹介)

この例では、 list index out of range通常、 display_data関数で発生します。その理由は、 titlesheatintroductionsの3つのリストの長さが一貫性がない場合があります。リストの1つが10(またはループの範囲)未満の長さを持っている場合、リスト要素にアクセスするときにインデックスアウトバウンドエラーが発生します。

解決:

重要なのは、リスト要素にアクセスする前に、リストの長さがチェックされ、有効なインデックス範囲内の要素のみがアクセスできることを確認することです。改善されたコードは次のとおりです。

リクエストをインポートします
BS4からBeautifulSoupをインポートします

#...(ヘッダーとリクエストは同じままです)...

def extract_data():
    #...(抽出は同じままです)...

dif display_data(タイトル、ヒート、紹介):
    min_len = min(len(title)、len(heat)、len(紹介))#最短リストを見つける
    範囲のi(min_len):
        print(f "lanking:{i 1}、title:{title [i]}、人気:{heat [i]}、はじめに:{Introductions [i]}")


__name__ == '__main__'の場合:
    タイトル、熱、紹介= extract_data()
    display_data(タイトル、ヒート、紹介)

3つのリストmin_lenの最短長さを計算し、 min_lenループの範囲として使用することにより、リストインデックス範囲外の要素がアクセスされないようにし、 list index out of rangeを効果的に回避します。これは、さまざまなWebページ構造とデータボリュームの変化に適応できる、より堅牢な処理方法です。さらに、エラー処理メカニズム( try-exceptブロックなど)を追加することも、より複雑な状況を処理できる優れたプログラミングプラクティスです。

以上がPython Crawlerを使用するときに、「範囲外」エラーを取得するのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Pythonアレイに要素をどのように追加しますか?Pythonアレイに要素をどのように追加しますか?Apr 30, 2025 am 12:19 AM

inpython、youappendelementStoalistusingtheappend()method.1)useappend()forsingleelements:my_list.append(4).2)useextend()or = formultipleElements:my_list.extend(another_list)ormy_list = [4,5,6] .3)forspecificpositions:my_list.insert(1,5).beaware

シバン関連の問題をどのようにデバッグしますか?シバン関連の問題をどのようにデバッグしますか?Apr 30, 2025 am 12:17 AM

シェバンの問題をデバッグする方法には次のものがあります。1。シバン行をチェックして、それがスクリプトの最初の行であり、接頭辞スペースがないことを確認します。 2.通訳パスが正しいかどうかを確認します。 3.通訳を直接呼び出してスクリプトを実行して、シェバンの問題を分離します。 4. StraceまたはTrustsを使用して、システムコールを追跡します。 5.シバンに対する環境変数の影響を確認してください。

Pythonアレイから要素をどのように削除しますか?Pythonアレイから要素をどのように削除しますか?Apr 30, 2025 am 12:16 AM

pythonlistscanbemanipulatedsingseveralmethodstoremoveElements:1)theremove()methodremovesthefirstoccurrenceofaspecifiedValue.2)thepop()methop()methodremovessanelementatagivenindex.3)thedelstatementementementementementementementementementemoritemoricedex.4)

Pythonリストに保存できるデータ型は何ですか?Pythonリストに保存できるデータ型は何ですか?Apr 30, 2025 am 12:07 AM

Integers、strings、floats、booleans、otherlists、anddictionaryを含むpythonlistscanstoreanydatype

Pythonリストで実行できる一般的な操作は何ですか?Pythonリストで実行できる一般的な操作は何ですか?Apr 30, 2025 am 12:01 AM

PythonListsSupportNumersoperations:1)AddingElementSwithAppend()、Extend()、Andinert()

numpyを使用してマルチディメンシャルアレイをどのように作成しますか?numpyを使用してマルチディメンシャルアレイをどのように作成しますか?Apr 29, 2025 am 12:27 AM

Numpyを使用して多次元配列を作成すると、次の手順を通じて実現できます。1)numpy.array()関数を使用して、np.array([[1,2,3]、[4,5,6]])などの配列を作成して2D配列を作成します。 2)np.zeros()、np.ones()、np.random.random()およびその他の関数を使用して、特定の値で満たされた配列を作成します。 3)アレイの形状とサイズの特性を理解して、サブアレイの長さが一貫していることを確認し、エラーを回避します。 4)np.reshape()関数を使用して、配列の形状を変更します。 5)コードが明確で効率的であることを確認するために、メモリの使用に注意してください。

Numpyアレイの「ブロードキャスト」の概念を説明します。Numpyアレイの「ブロードキャスト」の概念を説明します。Apr 29, 2025 am 12:23 AM

BroadcastinginNumPyisamethodtoperformoperationsonarraysofdifferentshapesbyautomaticallyaligningthem.Itsimplifiescode,enhancesreadability,andboostsperformance.Here'showitworks:1)Smallerarraysarepaddedwithonestomatchdimensions.2)Compatibledimensionsare

データストレージ用のリスト、array.array、およびnumpy配列を選択する方法を説明します。データストレージ用のリスト、array.array、およびnumpy配列を選択する方法を説明します。Apr 29, 2025 am 12:20 AM

Forpythondatastorage、chooseLists forfficability withmixeddatypes、array.arrayformemory-efficienthogeneousnumericaldata、およびnumpyArrays foradvancednumericalcomputing.listSareversatilebuteficient efficient forlargeNumericaldatates;

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター