데이터 분석에서 초보자 프로젝트를 만드는 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

데이터 분석에서 초보자 프로젝트를 만드는 방법

DDD

Dec 23, 2024 pm 12:49 PM

Como criar um projeto iniciante em análise de dados

안녕하세요. 오늘은 데이터 영역의 초보자인 여러분이 작업에 필요한 모든 도구와 함께 멋진 포트폴리오를 만들 수 있는 첫 번째 프로젝트를 만들 예정입니다. 데이터!

이 프로젝트는 Python 초보자라도 아직 처음부터 수행하는 방법을 모르는 더 복잡한 작업을 수행하기 위한 라이브러리를 항상 찾을 수 있음을 보여줍니다(어떤 작업은 처음부터 수행할 가치조차 없습니다). 어느 하나) . 대시보드를 만들기 위해서는 먼저 Python과 SQL에 대한 기초 지식은 물론, Tableau에 대한 약간의 지식도 갖추고 있는 것이 중요합니다. 전문가가 될 필요는 없지만 이러한 도구의 기본 사항을 알면 프로젝트를 더 쉽게 따라갈 수 있지만, 기사 전체를 읽고 재현해 볼 수도 있습니다. 가장 간단한 방법으로 이제 첫 번째 대시보드 생성을 시작할 수 있습니다!

시작해볼까요?

첫 번째 단계는 컴퓨터에 개발 환경을 구성하는 것입니다. 이 프로젝트의 요구 사항은 다음과 같습니다.

파이썬 3
MySQL 9.1(웹사이트의 최신 버전)
타블로 퍼블릭

본 프로젝트는 Windows 11 환경에서 개발 중이기 때문에 OS나 Windows 버전에 따라 다소 차이가 있을 수 있으나, 여기서 소개할 내용과 큰 차이는 없습니다.

파이썬부터 시작해 보겠습니다. https://www.python.org/downloads/로 이동하여 최신 버전의 설치 프로그램을 다운로드하세요. 설치 후에는 버그(제가 겪은 일이군요 ㅎㅎ)를 방지하고 명령줄에서 문제 없이 언어를 사용할 수 있도록 PC를 다시 시작하세요.

그런 다음 MySQL을 사용하여 https://dev.mysql.com/downloads/mysql/ 웹사이트로 이동하여 MySQL 커뮤니티 서버 설치 프로그램을 다운로드합니다. 표준 설치를 따르기만 하면 모든 것이 완벽하게 진행됩니다.

이제 Tableau Public을 사용하여 https://www.tableau.com/pt-br/products/public/download로 이동하고 계정을 만들어 다운로드를 시작하세요. 첫 번째 대시보드를 게시하려면 계정 생성도 필요하며 포트폴리오에도 매우 중요합니다!

꼭 필요하지는 않지만 있으면 매우 좋은 또 다른 도구는 git과 github 계정입니다. 커밋과 주석이 포함된 모든 코드를 여기에 넣었습니다. github을 코드 포트폴리오로 사용하는 것은 좋지만 git을 모르더라도 괜찮고 프로젝트도 같은 방식으로 작동할 것입니다.

모든 항목을 구성했으면 애플리케이션을 배치할 디렉터리로 이동한 다음 몇 가지 추가 구성을 만들어 보겠습니다. 프로젝트에서 사용하려면 몇 가지 Python 라이브러리가 필요합니다. 각 라이브러리의 기능과 설치 방법을 설명하겠습니다.

우리가 사용할 첫 번째 라이브러리는 BeautifulSoup입니다. 이 프로젝트에 필요한 데이터는 인터넷에 있으며 이를 수집하려면 웹 스크래핑이라는 프로세스를 수행해야 합니다. BeautifulSoup은 이 수집을 용이하게 하는 도구를 제공하여 이 프로세스를 도와줄 것입니다.
설치하려면 터미널로 이동하여
를 입력하세요.

pip install beautifulsoup4

그리고... 바로 그거예요! Python에서 종속성을 설치하는 것은 매우 간단합니다!

우리가 사용할 두 번째 라이브러리는 요청입니다. 웹 페이지 작업을 하려면 API를 사용하여 CRUD 작업을 수행하는 데 도움이 되는 것이 필요하므로 이를 선택합니다. 이번에도
를 사용하여 터미널에 설치하세요.

pip install requests

또한 모범 사례를 구현하고 환경 변수를 사용할 것이므로(아무도 코드에서 비밀번호, 사용자 이름 및 기타 민감한 정보를 발견할 수 없도록) os와 dotenv가 필요합니다. os는 Python에 기본적으로 이미 설치되어 있어야 하지만 dotenv는 그렇지 않으므로 일반적인 프로세스입니다

pip install dotenv

마지막으로 MySQL 데이터베이스에 연결하려면 라이브러리가 필요하므로 mysql.connector를 사용하겠습니다

pip install mysql-connector-python

개발 환경 구성이 완료되면 프로세스의 가장 재미있는 부분인 프로그래밍으로 넘어가세요!!

우리는 웹 스크래핑과 데이터베이스 조작의 두 부분(코드 측면에서)으로 나누어지는 프로젝트를 만들 예정이므로 웹 스크래핑 파일을 만드는 것부터 시작하겠습니다. 계속 머무르면 데이터베이스 조작 기능을 배치할 파일을 만들 것입니다. 이는 코드 유지 관리뿐 아니라 재사용에도 도움이 됩니다.

애플리케이션 디렉토리에 web_scrapper.py라는 파일을 생성하세요.
다음으로 이전에 설치한 종속성을 가져옵니다.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

dotenv에서는 load_dotenv 함수만 필요하므로 이를 가져오기만 합니다.

먼저 코드 구조에 대해 생각하고 각 작업에서 원하는 작업을 단계별로 작성하여 좀 더 체계적으로 만들어 보겠습니다. 우리는 코드가 다음 작업을 수행하길 원합니다:

웹 스크래퍼를 생성하고 변수에 데이터를 저장합니다
우리가 얻은 데이터로 데이터베이스를 채웁니다
Tableau Public에서 분석할 수 있도록 데이터베이스에서 데이터를 가져와 csv 파일에 저장합니다

부분으로 나누어 보겠습니다. 가장 먼저 만들고 테스트하고 싶은 부분은 웹 스크래퍼를 만드는 것이므로 가장 좋은 방법은 그것부터 시작하는 것입니다!
우리는 이러한 유형의 작업을 위해 만들어진 웹사이트인 https://www.scrapethissite.com/을 사용할 것입니다. 거기에서 웹 스크래핑을 연습할 수 있는 여러 유형의 페이지를 찾을 수 있습니다. 특히 초보자 모델에 관심이 많으니 해당 페이지에 요청해 보겠습니다.

pip install beautifulsoup4

여기서는 CRUD의 읽기와 동일한 요청 가져오기 메소드를 사용합니다. 이 메소드는 웹페이지를 반환하고 우리가 생성한 page_countries_area_population 변수에 전체 내용을 저장합니다.
그런 다음 필요한 정보를 찾을 수 있도록 페이지의 HTML을 구문 분석하는 BeautifulSoup가 필요합니다. 이를 위해 수프라는 변수를 생성하고 BeautifulSoup을 호출한 후 생성한 변수의 텍스트를 여기에 전달합니다

pip install requests

이렇게 하면 우리가 만든 변수 내에서 연결된 구문 분석 및 BeautifulSoup 메서드가 포함된 페이지가 반환되므로 작업이 더 쉬워집니다.
이제 페이지에서 제거하려는 정보를 식별해야 합니다. 이를 위해 웹 페이지를 검사하고 html 문서 내의 요소와 해당 패턴을 식별해야 합니다. 이 경우 국가 이름이 h3 태그 내부에 국가 이름 클래스가 있음을 확인하므로 이를 사용하여 국가 이름을 가져옵니다

pip install dotenv

여기에서는 앞서 만든 수프를 호출하고 국가 이름의 모든 인스턴스를 가져오는 findAll 함수를 호출합니다. 첫 번째 매개변수는 우리가 찾고 있는 html 요소이고 두 번째 매개변수는 해당 속성입니다. 선택하지 않으려는 다른 h3 태그가 있을 수 있기 때문입니다. 이 경우 국가 이름 클래스를 전달하여 요소를 식별합니다. 우리는 원합니다.
각 나라의 주민수와 면적에 맞춰 이 과정을 반복합니다

pip install mysql-connector-python

이 데이터를 데이터베이스에 전달하기 전에 데이터를 정리하고 원하지 않는 내용이 함께 입력되지 않도록 하는 형식으로 남겨둡니다. 이를 위해 데이터베이스에 데이터를 전달하기 전에 데이터를 저장할 튜플 목록을 생성합니다. 이렇게 하면 프로세스가 더 쉬워집니다. 단, 추가하기 전에 국가 이름의 공백도 제거해야 합니다.

from bs4 import BeautifulSoup
import requests
import db_manager
import os
from dotenv import load_dotenv

그리고 우리는 이미 필요한 데이터를 보유하고 있습니다! 첫 번째 작업을 목록에서 지울 수 있습니다!

이 기사의 2부에서는 Python을 사용하여 데이터베이스를 조작하고 프로젝트를 완료하는 방법을 가르쳐 드리겠습니다.

위 내용은 데이터 분석에서 초보자 프로젝트를 만드는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python의 병합 목록 : 올바른 메소드 선택May 14, 2025 am 12:11 AM

Tomergelistsinpython, youcanusethe operator, extendmethod, listcomprehension, oritertools.chain, 각각은 각각의 지위를 불러 일으킨다

Python 3에서 두 목록을 연결하는 방법은 무엇입니까?May 14, 2025 am 12:09 AM

Python 3에서는 다양한 방법을 통해 두 개의 목록을 연결할 수 있습니다. 1) 작은 목록에 적합하지만 큰 목록에는 비효율적입니다. 2) 메모리 효율이 높지만 원래 목록을 수정하는 큰 목록에 적합한 확장 방법을 사용합니다. 3) 원래 목록을 수정하지 않고 여러 목록을 병합하는 데 적합한 * 운영자 사용; 4) 메모리 효율이 높은 대형 데이터 세트에 적합한 itertools.chain을 사용하십시오.

Python은 문자열을 연결합니다May 14, 2025 am 12:08 AM

join () 메소드를 사용하는 것은 Python의 목록에서 문자열을 연결하는 가장 효율적인 방법입니다. 1) join () 메소드를 사용하여 효율적이고 읽기 쉽습니다. 2)주기는 큰 목록에 비효율적으로 운영자를 사용합니다. 3) List Comprehension과 Join ()의 조합은 변환이 필요한 시나리오에 적합합니다. 4) READE () 방법은 다른 유형의 감소에 적합하지만 문자열 연결에 비효율적입니다. 완전한 문장은 끝납니다.

파이썬 실행, 그게 뭐야?May 14, 2025 am 12:06 AM

pythonexecutionissprocessoftransformingpythoncodeintoExecutableInstructions.1) the -interreadsTheCode, ConvertingItintoByTecode, thethepythonVirtualMachine (pvm)을 실행합니다

파이썬 : 주요 기능은 무엇입니까?May 14, 2025 am 12:02 AM

Python의 주요 특징은 다음과 같습니다. 1. 구문은 간결하고 이해하기 쉽고 초보자에게 적합합니다. 2. 개발 속도 향상, 동적 유형 시스템; 3. 여러 작업을 지원하는 풍부한 표준 라이브러리; 4. 광범위한 지원을 제공하는 강력한 지역 사회와 생태계; 5. 스크립팅 및 빠른 프로토 타이핑에 적합한 해석; 6. 다양한 프로그래밍 스타일에 적합한 다중-파라 디그 지원.

파이썬 : 컴파일러 또는 통역사?May 13, 2025 am 12:10 AM

Python은 해석 된 언어이지만 편집 프로세스도 포함됩니다. 1) 파이썬 코드는 먼저 바이트 코드로 컴파일됩니다. 2) 바이트 코드는 Python Virtual Machine에 의해 해석되고 실행됩니다. 3)이 하이브리드 메커니즘은 파이썬이 유연하고 효율적이지만 완전히 편집 된 언어만큼 빠르지는 않습니다.

루프 대 루프를위한 파이썬 : 루프시기는 언제 사용해야합니까?May 13, 2025 am 12:07 AM

USEAFORLOOPHENTERATINGOVERASERASERASPECIFICNUMBEROFTIMES; USEAWHILLOOPWHENTINUTIMONDITINISMET.FORLOOPSAREIDEALFORKNOWNSEDINGENCENCENS, WHILEWHILELOOPSSUITSITUATIONS WITHERMINGEDERITERATIONS.

파이썬 루프 : 가장 일반적인 오류May 13, 2025 am 12:07 AM

Pythonloopscanleadtoerrors likeinfiniteloops, modifyinglistsdizeration, off-by-by-byerrors, zero-indexingissues, andnestedloopineficiencies.toavoidthese : 1) aing'i

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Dreamweaver Mac版

시각적 웹 개발 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는