データ分析の初心者プロジェクトを作成する方法-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

データ分析の初心者プロジェクトを作成する方法

DDD

Dec 23, 2024 pm 12:49 PM

Como criar um projeto iniciante em análise de dados

こんにちは、今日は、データ分野の初心者であるあなたがクールなポートフォリオの作成を開始できるように、作業に必要なツールをすべて備えた最初のプロジェクトを作成します。データ!

このプロジェクトは、たとえあなたが Python の初心者であっても、まだやり方がわからない、より複雑なタスクを最初から実行するためのライブラリをいつでも見つけることができることを示しています (一部のことは、最初から行う価値さえありません)どちらか）。まず、ダッシュボードを作成するには、Python と SQL の初期知識と、Tableau の知識があることが重要です。専門家である必要はありませんが、これらのツールの基本を知っていると、プロジェクトをより簡単に理解できるようになります。ただし、記事全体を読んで再現してみることもできます。可能な限り最も簡単な方法で、最初のダッシュボードの作成を開始できます!

始めましょうか?

最初のステップは、マシン上に開発環境を構成することです。このプロジェクトの要件は次のとおりです:

Python 3
MySQL 9.1 (Web サイト上の最新バージョン)
Tableau パブリック

このプロジェクトは Windows 11 環境で開発しているため、OS または Windows のバージョンによっていくつかの点が異なる場合がありますが、ここで説明する内容から大きく逸脱するものはありません。

Python から始めましょう。 https://www.python.org/downloads/ に移動し、最新バージョンのインストーラーをダウンロードします。インストール後、PC を再起動してバグを回避し (私もそうでした、笑)、コマンドラインで問題なく言語を使用できるようにします。

次に、MySQL を使用して、Web サイト https://dev.mysql.com/downloads/mysql/ にアクセスし、MySQL Community Server インストーラーをダウンロードします。標準のインストールに従うだけで、すべてが完璧に進みます。

Tableau Public を使用して、https://www.tableau.com/pt-br/products/public/download にアクセスし、アカウントを作成してダウンロードを開始します。アカウントの作成は、最初のダッシュボードを公開するためにも必要であり、ポートフォリオにとっても非常に重要です!

必須ではありませんが、あると非常に便利なもう 1 つのツールは、git と github アカウントです。私はすべてのコードをコミットとコメント付きでここに配置しています。コードのポートフォリオとして github を使用するのは素晴らしいことですが、git を知らなくても大丈夫です。プロジェクトは同じように機能します。

すべての設定が完了したら、アプリケーションを配置するディレクトリに移動し、さらにいくつかの設定を行います。プロジェクトで使用するには、いくつかの Python ライブラリが必要になります。それぞれの機能とインストール方法について説明します。

最初に使用するライブラリは BeautifulSoup です。このプロジェクトに必要なデータはインターネット上にあり、それを収集するには Web スクレイピングと呼ばれるプロセスを実行する必要があります。BeautifulSoup は、この収集を容易にするツールを提供してこのプロセスを支援します。
インストールするには、ターミナルに移動して
と入力するだけです。

pip install beautifulsoup4

そして...それだけです! Python での依存関係のインストールは非常に簡単です!

2 番目に使用するライブラリはリクエストです。 Web ページを操作する場合は、API を使用して CRUD アクションを実行できるものが必要なので、これを選択します。繰り返しますが、
を使用して端末にインストールするだけです。

pip install requests

また、グッドプラクティスを実装し、環境変数を使用する予定です (コード内のパスワード、ユーザー名、その他の機密情報が誰にも見つからないようにするため)。そのため、os と dotenv が必要になります。 Python では OS がデフォルトですでにインストールされている必要がありますが、dotenv はインストールされていないため、通常のプロセスです

pip install dotenv

そして最後に重要なことですが、MySQL データベースに接続するためのライブラリが必要なので、mysql.connector を使用しましょう

pip install mysql-connector-python

開発環境を設定したら、プロセスの最も楽しい部分であるプログラミングに進むだけです!!

Web スクレイピングとデータベース操作の 2 つの部分 (コードの観点から) に分かれるプロジェクトを作成するので、まず Web スクレイピングファイルを作成します。これはメインコードもここに作成されます。滞在してから、データベース操作関数を配置するファイルを作成します。これはコードの保守だけでなく再利用にも役立ちます。

アプリケーションディレクトリに web_scrapper.py というファイルを作成します。
次に、前にインストールした依存関係をインポートします。

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

dotenv からは、load_dotenv 関数のみが必要になるため、それをインポートするだけです。

まず、コードの構造を考えて、それぞれの処理をより体系化したものにするために、ステップごとに実行したいことを書いてみましょう。コードで次のアクションを実行する必要があります:

Web スクレイパーを作成し、データを変数に保存します
取得したデータをデータベースに入力します
データベースからデータを取得し、CSV ファイルに保存して、Tableau Public で分析できるようにします

いくつかの部分に分けて説明していきます。作成してテストしたい最初の部分は Web スクレイパーの作成です。そのため、そこから始めるのが最良の方法です。
このタイプの Web サイト https://www.scrapethissite.com/ を使用します。そこには、Web スクレイピングを練習するためのいくつかのタイプのページがあります。特に初心者モデルに興味があるので、そのページをリクエストしてみましょう:

pip install beautifulsoup4

ここでは、CRUD の読み取りと同等の request get メソッドを使用します。Web ページが返され、作成した変数 page_countries_area_population にその全体が保存されます。
次に、必要な情報を見つけられるように、BeautifulSoup でページの HTML を解析する必要があります。これを行うには、soup という変数を作成し、BeaultifulSoup を呼び出し、作成した変数のテキストをそれに渡します

pip install requests

これにより、作成した変数内でリンクされた parse メソッドと BeautifulSoup メソッドを含むページが返されるため、作業が容易になります。
次に、ページから削除する情報を特定する必要があります。そのためには、Web ページを検査し、HTML ドキュメント内の要素とそのパターンを特定する必要があります。この場合、国名が h3 タグ内にあり、country-name クラスを使用していることがわかります。そのため、これを使用して国名を取得しましょう

pip install dotenv

ここでは、前に作成したスープを呼び出し、国名のすべてのインスタンスを取得する findAll 関数を呼び出します。最初のパラメータは探している HTML 要素で、2 番目のパラメータはその属性になります。選択したくない他の h3 タグが含まれている可能性があるためです。この場合、要素を識別するために国名クラスを渡します。私たちは欲しいです。
各国の住民数と面積ごとにこのプロセスを繰り返します

pip install mysql-connector-python

このデータをデータベースに渡す前に、データをクリーンアップし、不要なものが一緒に入らないような形式のままにします。これを行うには、プロセスを容易にするため、データをデータベースに渡す前にデータを保存するタプルのリストを作成します。ただし、追加する前に、国名からも空白を削除する必要があります。

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

これで、必要なデータはすでに入手できました。最初のタスクはリストから外しましょう!

この記事のパート 2 では、Python を使用してデータベースを操作し、プロジェクトを完了する方法を説明します。

以上がデータ分析の初心者プロジェクトを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの融合リスト：適切な方法を選択しますMay 14, 2025 am 12:11 AM

Tomergelistsinpython、あなたはオペレーター、extendmethod、listcomfulting、olitertools.chain、それぞれの特異的advantages：1）operatorissimplebutlessforlargelist;

Python 3の2つのリストを連結する方法は？May 14, 2025 am 12:09 AM

Python 3では、2つのリストをさまざまな方法で接続できます。1）小さなリストに適したオペレーターを使用しますが、大きなリストには非効率的です。 2）メモリ効率が高い大規模なリストに適した拡張方法を使用しますが、元のリストは変更されます。 3）元のリストを変更せずに、複数のリストをマージするのに適した *オペレーターを使用します。 4）Itertools.chainを使用します。これは、メモリ効率が高い大きなデータセットに適しています。

Python Concatenateリスト文字列May 14, 2025 am 12:08 AM

Join（）メソッドを使用することは、Pythonのリストから文字列を接続する最も効率的な方法です。 1）join（）メソッドを使用して、効率的で読みやすくなります。 2）サイクルは、大きなリストに演算子を非効率的に使用します。 3）リスト理解とJoin（）の組み合わせは、変換が必要なシナリオに適しています。 4）redoce（）メソッドは、他のタイプの削減に適していますが、文字列の連結には非効率的です。完全な文は終了します。

Pythonの実行、それは何ですか？May 14, 2025 am 12:06 AM

pythonexexecutionistheprocessoftransforningpythoncodeintoexecutabletructions.1）interpreterreadSthecode、変換intobytecode、thepythonvirtualmachine（pvm）executes.2）theglobalinterpreeterlock（gil）管理委員会、

Python：重要な機能は何ですかMay 14, 2025 am 12:02 AM

Pythonの主な機能には次のものがあります。1。構文は簡潔で理解しやすく、初心者に適しています。 2。動的タイプシステム、開発速度の向上。 3。複数のタスクをサポートするリッチ標準ライブラリ。 4.強力なコミュニティとエコシステム、広範なサポートを提供する。 5。スクリプトと迅速なプロトタイピングに適した解釈。 6.さまざまなプログラミングスタイルに適したマルチパラダイムサポート。

Python：コンパイラまたはインタープリター？May 13, 2025 am 12:10 AM

Pythonは解釈された言語ですが、コンパイルプロセスも含まれています。 1）Pythonコードは最初にBytecodeにコンパイルされます。 2）ByteCodeは、Python Virtual Machineによって解釈および実行されます。 3）このハイブリッドメカニズムにより、Pythonは柔軟で効率的になりますが、完全にコンパイルされた言語ほど高速ではありません。

ループvs whileループ用のpython：いつ使用するか？May 13, 2025 am 12:07 AM

useaforloopwhenteratingoverasequenceor foraspificnumberoftimes; useawhileloopwhentinuninguntinuntilaConditionismet.forloopsareidealforknownownownownownownoptinuptinuptinuptinuptinutionsituations whileoopsuitsituations withinterminedationations。

Pythonループ：最も一般的なエラーMay 13, 2025 am 12:07 AM

pythonloopscanleadtoErrorslikeinfiniteloops、ModifiningListsDuringiteration、Off-Oneerrors、Zero-dexingissues、およびNestededLoopinefficiencies.toavoidhese：1）use'i

See all articles