>백엔드 개발 >파이썬 튜토리얼 >데이터 분석에서 초보자 프로젝트를 만드는 방법

데이터 분석에서 초보자 프로젝트를 만드는 방법

DDD
DDD원래의
2024-12-23 12:49:20441검색

Como criar um projeto iniciante em análise de dados

안녕하세요. 오늘은 데이터 영역의 초보자인 여러분이 작업에 필요한 모든 도구와 함께 멋진 포트폴리오를 만들 수 있는 첫 번째 프로젝트를 만들 예정입니다. 데이터!

이 프로젝트는 Python 초보자라도 아직 처음부터 수행하는 방법을 모르는 더 복잡한 작업을 수행하기 위한 라이브러리를 항상 찾을 수 있음을 보여줍니다(어떤 작업은 처음부터 수행할 가치조차 없습니다). 어느 하나) . 대시보드를 만들기 위해서는 먼저 Python과 SQL에 대한 기초 지식은 물론, Tableau에 대한 약간의 지식도 갖추고 있는 것이 중요합니다. 전문가가 될 필요는 없지만 이러한 도구의 기본 사항을 알면 프로젝트를 더 쉽게 따라갈 수 있지만, 기사 전체를 읽고 재현해 볼 수도 있습니다. 가장 간단한 방법으로 이제 첫 번째 대시보드 생성을 시작할 수 있습니다!

시작해볼까요?

첫 번째 단계는 컴퓨터에 개발 환경을 구성하는 것입니다. 이 프로젝트의 요구 사항은 다음과 같습니다.

  • 파이썬 3
  • MySQL 9.1(웹사이트의 최신 버전)
  • 타블로 퍼블릭

본 프로젝트는 Windows 11 환경에서 개발 중이기 때문에 OS나 Windows 버전에 따라 다소 차이가 있을 수 있으나, 여기서 소개할 내용과 큰 차이는 없습니다.

파이썬부터 시작해 보겠습니다. https://www.python.org/downloads/로 이동하여 최신 버전의 설치 프로그램을 다운로드하세요. 설치 후에는 버그(제가 겪은 일이군요 ㅎㅎ)를 방지하고 명령줄에서 문제 없이 언어를 사용할 수 있도록 PC를 다시 시작하세요.

그런 다음 MySQL을 사용하여 https://dev.mysql.com/downloads/mysql/ 웹사이트로 이동하여 MySQL 커뮤니티 서버 설치 프로그램을 다운로드합니다. 표준 설치를 따르기만 하면 모든 것이 완벽하게 진행됩니다.

이제 Tableau Public을 사용하여 https://www.tableau.com/pt-br/products/public/download로 이동하고 계정을 만들어 다운로드를 시작하세요. 첫 번째 대시보드를 게시하려면 계정 생성도 필요하며 포트폴리오에도 매우 중요합니다!

꼭 필요하지는 않지만 있으면 매우 좋은 또 다른 도구는 git과 github 계정입니다. 커밋과 주석이 포함된 모든 코드를 여기에 넣었습니다. github을 코드 포트폴리오로 사용하는 것은 좋지만 git을 모르더라도 괜찮고 프로젝트도 같은 방식으로 작동할 것입니다.

모든 항목을 구성했으면 애플리케이션을 배치할 디렉터리로 이동한 다음 몇 가지 추가 구성을 만들어 보겠습니다. 프로젝트에서 사용하려면 몇 가지 Python 라이브러리가 필요합니다. 각 라이브러리의 기능과 설치 방법을 설명하겠습니다.

우리가 사용할 첫 번째 라이브러리는 BeautifulSoup입니다. 이 프로젝트에 필요한 데이터는 인터넷에 있으며 이를 수집하려면 웹 스크래핑이라는 프로세스를 수행해야 합니다. BeautifulSoup은 이 수집을 용이하게 하는 도구를 제공하여 이 프로세스를 도와줄 것입니다.
설치하려면 터미널로 이동하여
를 입력하세요.

pip install beautifulsoup4

그리고... 바로 그거예요! Python에서 종속성을 설치하는 것은 매우 간단합니다!

우리가 사용할 두 번째 라이브러리는 요청입니다. 웹 페이지 작업을 하려면 API를 사용하여 CRUD 작업을 수행하는 데 도움이 되는 것이 필요하므로 이를 선택합니다. 이번에도
를 사용하여 터미널에 설치하세요.

pip install requests

또한 모범 사례를 구현하고 환경 변수를 사용할 것이므로(아무도 코드에서 비밀번호, 사용자 이름 및 기타 민감한 정보를 발견할 수 없도록) os와 dotenv가 필요합니다. os는 Python에 기본적으로 이미 설치되어 있어야 하지만 dotenv는 그렇지 않으므로 일반적인 프로세스입니다

pip install dotenv

마지막으로 MySQL 데이터베이스에 연결하려면 라이브러리가 필요하므로 mysql.connector를 사용하겠습니다

pip install mysql-connector-python

개발 환경 구성이 완료되면 프로세스의 가장 재미있는 부분인 프로그래밍으로 넘어가세요!!

우리는 웹 스크래핑과 데이터베이스 조작의 두 부분(코드 측면에서)으로 나누어지는 프로젝트를 만들 예정이므로 웹 스크래핑 파일을 만드는 것부터 시작하겠습니다. 계속 머무르면 데이터베이스 조작 기능을 배치할 파일을 만들 것입니다. 이는 코드 유지 관리뿐 아니라 재사용에도 도움이 됩니다.

애플리케이션 디렉토리에 web_scrapper.py라는 파일을 생성하세요.
다음으로 이전에 설치한 종속성을 가져옵니다.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

dotenv에서는 load_dotenv 함수만 필요하므로 이를 가져오기만 합니다.

먼저 코드 구조에 대해 생각하고 각 작업에서 원하는 작업을 단계별로 작성하여 좀 더 체계적으로 만들어 보겠습니다. 우리는 코드가 다음 작업을 수행하길 원합니다:

  1. 웹 스크래퍼를 생성하고 변수에 데이터를 저장합니다
  2. 우리가 얻은 데이터로 데이터베이스를 채웁니다
  3. Tableau Public에서 분석할 수 있도록 데이터베이스에서 데이터를 가져와 csv 파일에 저장합니다

부분으로 나누어 보겠습니다. 가장 먼저 만들고 테스트하고 싶은 부분은 웹 스크래퍼를 만드는 것이므로 가장 좋은 방법은 그것부터 시작하는 것입니다!
우리는 이러한 유형의 작업을 위해 만들어진 웹사이트인 https://www.scrapethissite.com/을 사용할 것입니다. 거기에서 웹 스크래핑을 연습할 수 있는 여러 유형의 페이지를 찾을 수 있습니다. 특히 초보자 모델에 관심이 많으니 해당 페이지에 요청해 보겠습니다.

pip install beautifulsoup4

여기서는 CRUD의 읽기와 동일한 요청 가져오기 메소드를 사용합니다. 이 메소드는 웹페이지를 반환하고 우리가 생성한 page_countries_area_population 변수에 전체 내용을 저장합니다.
그런 다음 필요한 정보를 찾을 수 있도록 페이지의 HTML을 구문 분석하는 BeautifulSoup가 필요합니다. 이를 위해 수프라는 변수를 생성하고 BeautifulSoup을 호출한 후 생성한 변수의 텍스트를 여기에 전달합니다

pip install requests

이렇게 하면 우리가 만든 변수 내에서 연결된 구문 분석 및 BeautifulSoup 메서드가 포함된 페이지가 반환되므로 작업이 더 쉬워집니다.
이제 페이지에서 제거하려는 정보를 식별해야 합니다. 이를 위해 웹 페이지를 검사하고 html 문서 내의 요소와 해당 패턴을 식별해야 합니다. 이 경우 국가 이름이 h3 태그 내부에 국가 이름 클래스가 있음을 확인하므로 이를 사용하여 국가 이름을 가져옵니다

pip install dotenv

여기에서는 앞서 만든 수프를 호출하고 국가 이름의 모든 인스턴스를 가져오는 findAll 함수를 호출합니다. 첫 번째 매개변수는 우리가 찾고 있는 html 요소이고 두 번째 매개변수는 해당 속성입니다. 선택하지 않으려는 다른 h3 태그가 있을 수 있기 때문입니다. 이 경우 국가 이름 클래스를 전달하여 요소를 식별합니다. 우리는 원합니다.
각 나라의 주민수와 면적에 맞춰 이 과정을 반복합니다

pip install mysql-connector-python

이 데이터를 데이터베이스에 전달하기 전에 데이터를 정리하고 원하지 않는 내용이 함께 입력되지 않도록 하는 형식으로 남겨둡니다. 이를 위해 데이터베이스에 데이터를 전달하기 전에 데이터를 저장할 튜플 목록을 생성합니다. 이렇게 하면 프로세스가 더 쉬워집니다. 단, 추가하기 전에 국가 이름의 공백도 제거해야 합니다.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

그리고 우리는 이미 필요한 데이터를 보유하고 있습니다! 첫 번째 작업을 목록에서 지울 수 있습니다!

이 기사의 2부에서는 Python을 사용하여 데이터베이스를 조작하고 프로젝트를 완료하는 방법을 가르쳐 드리겠습니다.

위 내용은 데이터 분석에서 초보자 프로젝트를 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.