ホームページ >バックエンド開発 >Python チュートリアル >データ分析の初心者プロジェクトを作成する方法

データ分析の初心者プロジェクトを作成する方法

DDD
DDDオリジナル
2024-12-23 12:49:20441ブラウズ

Como criar um projeto iniciante em análise de dados

こんにちは、今日は、データ分野の初心者であるあなたがクールなポートフォリオの作成を開始できるように、作業に必要なツールをすべて備えた最初のプロジェクトを作成します。データ!

このプロジェクトは、たとえあなたが Python の初心者であっても、まだやり方がわからない、より複雑なタスクを最初から実行するためのライブラリをいつでも見つけることができることを示しています (一部のことは、最初から行う価値さえありません)どちらか) 。まず、ダッシュボードを作成するには、Python と SQL の初期知識と、Tableau の知識があることが重要です。専門家である必要はありませんが、これらのツールの基本を知っていると、プロジェクトをより簡単に理解できるようになります。ただし、記事全体を読んで再現してみることもできます。可能な限り最も簡単な方法で、最初のダッシュボードの作成を開始できます!

始めましょうか?

最初のステップは、マシン上に開発環境を構成することです。このプロジェクトの要件は次のとおりです:

  • Python 3
  • MySQL 9.1 (Web サイト上の最新バージョン)
  • Tableau パブリック

このプロジェクトは Windows 11 環境で開発しているため、OS または Windows のバージョンによっていくつかの点が異なる場合がありますが、ここで説明する内容から大きく逸脱するものはありません。

Python から始めましょう。 https://www.python.org/downloads/ に移動し、最新バージョンのインストーラーをダウンロードします。インストール後、PC を再起動してバグを回避し (私もそうでした、笑)、コマンド ラインで問題なく言語を使用できるようにします。

次に、MySQL を使用して、Web サイト https://dev.mysql.com/downloads/mysql/ にアクセスし、MySQL Community Server インストーラーをダウンロードします。標準のインストールに従うだけで、すべてが完璧に進みます。

Tableau Public を使用して、https://www.tableau.com/pt-br/products/public/download にアクセスし、アカウントを作成してダウンロードを開始します。アカウントの作成は、最初のダッシュボードを公開するためにも必要であり、ポートフォリオにとっても非常に重要です!

必須ではありませんが、あると非常に便利なもう 1 つのツールは、git と github アカウントです。私はすべてのコードをコミットとコメント付きで ここ に配置しています。コードのポートフォリオとして github を使用するのは素晴らしいことですが、git を知らなくても大丈夫です。プロジェクトは同じように機能します。

すべての設定が完了したら、アプリケーションを配置するディレクトリに移動し、さらにいくつかの設定を行います。プロジェクトで使用するには、いくつかの Python ライブラリが必要になります。それぞれの機能とインストール方法について説明します。

最初に使用するライブラリは BeautifulSoup です。このプロジェクトに必要なデータはインターネット上にあり、それを収集するには Web スクレイピングと呼ばれるプロセスを実行する必要があります。BeautifulSoup は、この収集を容易にするツールを提供してこのプロセスを支援します。
インストールするには、ターミナルに移動して
と入力するだけです。

pip install beautifulsoup4

そして...それだけです! Python での依存関係のインストールは非常に簡単です!

2 番目に使用するライブラリはリクエストです。 Web ページを操作する場合は、API を使用して CRUD アクションを実行できるものが必要なので、これを選択します。繰り返しますが、
を使用して端末にインストールするだけです。

pip install requests

また、グッド プラクティスを実装し、環境変数を使用する予定です (コード内のパスワード、ユーザー名、その他の機密情報が誰にも見つからないようにするため)。そのため、os と dotenv が必要になります。 Python では OS がデフォルトですでにインストールされている必要がありますが、dotenv はインストールされていないため、通常のプロセスです

pip install dotenv

そして最後に重要なことですが、MySQL データベースに接続するためのライブラリが必要なので、mysql.connector を使用しましょう

pip install mysql-connector-python

開発環境を設定したら、プロセスの最も楽しい部分であるプログラミングに進むだけです!!

Web スクレイピングとデータベース操作の 2 つの部分 (コードの観点から) に分かれるプロジェクトを作成するので、まず Web スクレイピング ファイルを作成します。これはメイン コードもここに作成されます。滞在してから、データベース操作関数を配置するファイルを作成します。これはコードの保守だけでなく再利用にも役立ちます。

アプリケーション ディレクトリに web_scrapper.py というファイルを作成します。
次に、前にインストールした依存関係をインポートします。

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

dotenv からは、load_dotenv 関数のみが必要になるため、それをインポートするだけです。

まず、コードの構造を考えて、それぞれの処理をより体系化したものにするために、ステップごとに実行したいことを書いてみましょう。コードで次のアクションを実行する必要があります:

  1. Web スクレイパーを作成し、データを変数に保存します
  2. 取得したデータをデータベースに入力します
  3. データベースからデータを取得し、CSV ファイルに保存して、Tableau Public で分析できるようにします

いくつかの部分に分けて説明していきます。作成してテストしたい最初の部分は Web スクレイパーの作成です。そのため、そこから始めるのが最良の方法です。
このタイプの Web サイト https://www.scrapethissite.com/ を使用します。そこには、Web スクレイピングを練習するためのいくつかのタイプのページがあります。特に初心者モデルに興味があるので、そのページをリクエストしてみましょう:

pip install beautifulsoup4

ここでは、CRUD の読み取りと同等の request get メソッドを使用します。Web ページが返され、作成した変数 page_countries_area_population にその全体が保存されます。
次に、必要な情報を見つけられるように、BeautifulSoup でページの HTML を解析する必要があります。これを行うには、soup という変数を作成し、BeaultifulSoup を呼び出し、作成した変数のテキストをそれに渡します

pip install requests

これにより、作成した変数内でリンクされた parse メソッドと BeautifulSoup メソッドを含むページが返されるため、作業が容易になります。
次に、ページから削除する情報を特定する必要があります。そのためには、Web ページを検査し、HTML ドキュメント内の要素とそのパターンを特定する必要があります。この場合、国名が h3 タグ内にあり、country-name クラスを使用していることがわかります。そのため、これを使用して国名を取得しましょう

pip install dotenv

ここでは、前に作成したスープを呼び出し、国名のすべてのインスタンスを取得する findAll 関数を呼び出します。最初のパラメータは探している HTML 要素で、2 番目のパラメータはその属性になります。選択したくない他の h3 タグが含まれている可能性があるためです。この場合、要素を識別するために国名クラスを渡します。私たちは欲しいです。
各国の住民数と面積ごとにこのプロセスを繰り返します

pip install mysql-connector-python

このデータをデータベースに渡す前に、データをクリーンアップし、不要なものが一緒に入らないような形式のままにします。これを行うには、プロセスを容易にするため、データをデータベースに渡す前にデータを保存するタプルのリストを作成します。ただし、追加する前に、国名からも空白を削除する必要があります。

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

これで、必要なデータはすでに入手できました。最初のタスクはリストから外しましょう!

この記事のパート 2 では、Python を使用してデータベースを操作し、プロジェクトを完了する方法を説明します。

以上がデータ分析の初心者プロジェクトを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。