您好,今天我们将为数据领域的初学者创建第一个项目,以便能够开始创建一个很酷的作品集并使用所有必要的工具来使用数据!
这个项目表明,即使你是Python的初学者,你总能找到库来执行你还不知道如何从头开始做的更复杂的任务(有些事情甚至不值得从头开始做)任何一个) 。首先,您必须具备 Python 和 SQL 的初步知识,以及对创建仪表板的 Tableau 的一点了解。您不必成为专家,但是了解这些工具的基础知识将帮助您更轻松地跟踪该项目,但是您可以阅读整篇文章并尝试重现它,因为我将尝试在最简单的方法,现在您就可以开始创建您的第一个仪表板了!
我们开始吧?
第一步是在您的机器上配置开发环境,该项目的要求是:
- Python 3
- MySQL 9.1(网站最新版本)
- Tableau 公共
我正在 Windows 11 环境中开发这个项目,因此有些事情可能会根据您的操作系统或 Windows 版本而有所不同,但与我将在这里介绍的内容不会有太大偏差。
让我们从 Python 开始。访问 https://www.python.org/downloads/ 并下载最新版本的安装程序。安装后,重新启动电脑以避免错误(就像我身上发生的那样哈哈)并能够在命令行上毫无问题地使用该语言。
然后,对于 MySQL,请访问网站 https://dev.mysql.com/downloads/mysql/ 并下载 MySQL Community Server 安装程序。只要按照标准安装,一切都会很顺利。
现在,使用 Tableau Public,转到 https://www.tableau.com/pt-br/products/public/download 并创建您的帐户以开始下载。创建帐户对于发布您的第一个仪表板也是必要的,并且对于您的作品集也非常重要!
另一个不是必需的但非常好的工具是 git 和 github 帐户。我将所有带有提交和注释的代码放在这里,使用 github 作为代码组合非常棒,但如果您不了解 git,也没关系,您的项目也会以同样的方式工作。
配置完所有内容后,转到要放置应用程序的目录,然后让我们进行更多配置。您将需要在项目中使用一些 Python 库,我将解释每个库的作用以及如何安装它们。
我们将使用的第一个库是 BeautifulSoup。这个项目所需的数据位于互联网上,我们必须执行一个称为“网页抓取”的过程来收集这些数据,BeautifulSoup 将通过为我们提供促进此收集的工具来帮助我们完成此过程。
要安装它,只需转到终端并输入
pip install beautifulsoup4
然后...就是这样!在Python中安装依赖项非常简单!
我们将使用的第二个库是 requests。如果我们要使用网页,我们需要一些东西来帮助我们使用 API 执行 CRUD 操作,所以这将是我们的选择。再次,只需在终端中使用
安装
pip install requests
我们还将实施良好的实践并使用环境变量(这样就没有人发现我们的密码、用户名和代码中的其他敏感信息),因此我们需要 os 和 dotenv。 os 必须已经在 python 中默认安装,而 dotenv 没有,所以这是通常的过程
pip install dotenv
最后但并非最不重要的一点是,我们需要一个库来连接到我们的 MySQL 数据库,所以让我们使用 mysql.connector
pip install mysql-connector-python
配置好开发环境后,就可以进入该过程中最有趣的部分,编程!!
我们将创建一个项目,该项目将分为两个部分(就代码而言):网页抓取和数据库操作,因此我们将从创建网页抓取文件开始,这也是主要代码所在的位置留下来,然后我们将创建一个文件来放置我们的数据库操作函数。这不仅有助于我们维护代码,还有助于其重用。
在应用程序目录中创建一个名为 web_scrapper.py 的文件。
接下来,我们将导入之前安装的依赖项。
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
从 dotenv 中,我们只需要 load_dotenv 函数,因此我们只导入它。
首先,让我们考虑一下代码的结构,并逐步编写我们希望每件事做什么,这样就更有组织性。我们希望我们的代码执行以下操作:
- 创建网络抓取工具并将数据保存在变量中
- 用我们获取的数据填充数据库
- 从数据库中获取数据并将其放入 csv 文件中,以便我们可以在 Tableau Public 中对其进行分析
让我们分部分进行,我们要创建和测试的第一部分是创建网络抓取工具,所以最好的方法就是从这里开始!
我们将使用专门为此类事情制作的网站,https://www.scrapethissite.com/,在那里您会找到几种类型的页面来练习网络抓取。我们对初学者模型特别感兴趣,所以让我们请求该页面:
pip install beautifulsoup4
这里我们使用requests get方法,相当于CRUD的读取,它返回网页并将其完整存储在我们创建的page_countries_area_population变量中。
然后,我们需要BeautifulSoup来解析页面的HTML,以便它可以找到我们需要的信息。为此,我们将创建一个名为 soup 的变量并调用 BeaultifulSoup 并将我们创建的变量的文本传递给它
pip install requests
这将返回页面,并在我们创建的变量中链接到它的 parse 和 BeautifulSoup 方法,从而使我们的工作更轻松。
现在我们需要识别要从页面中删除的信息,为此,我们需要检查网页并识别 html 文档中的元素及其模式。在本例中,我们看到国家/地区名称位于 h3 标签内并具有国家/地区名称类,因此让我们使用它来获取国家/地区名称
pip install dotenv
这里我们调用之前创建的 soup 并调用 findAll 函数,该函数将为我们获取所有国家/地区名称实例。第一个参数是我们正在寻找的 html 元素,第二个参数是它的属性,因为它们可能有我们不希望它选择的其他 h3 标签,在这种情况下,我们传递国家/地区名称类来标识元素我们想要。
我们对每个国家的居民数量和面积重复该过程
pip install mysql-connector-python
在将此数据传递到数据库之前,我们将对其进行清理并保留其格式,以防止不需要的内容随之进入。为此,我将创建一个元组列表来存储数据,然后再将其传递到数据库,因为这将使该过程更容易。然而,在添加它们之前,我们还需要删除国家/地区名称中的空格。
from bs4 import BeautifulSoup import requests import db_manager import os from dotenv import load_dotenv
这样我们就已经有了我们需要的数据了!我们可以把第一个任务从我们的清单上划掉了!
在本文的第二部分中,我将教您如何使用 Python 操作数据库并完成我们的项目?
以上是如何创建数据分析初学者项目的详细内容。更多信息请关注PHP中文网其他相关文章!

Python和C 各有优势,选择应基于项目需求。1)Python适合快速开发和数据处理,因其简洁语法和动态类型。2)C 适用于高性能和系统编程,因其静态类型和手动内存管理。

选择Python还是C 取决于项目需求:1)如果需要快速开发、数据处理和原型设计,选择Python;2)如果需要高性能、低延迟和接近硬件的控制,选择C 。

通过每天投入2小时的Python学习,可以有效提升编程技能。1.学习新知识:阅读文档或观看教程。2.实践:编写代码和完成练习。3.复习:巩固所学内容。4.项目实践:应用所学于实际项目中。这样的结构化学习计划能帮助你系统掌握Python并实现职业目标。

在两小时内高效学习Python的方法包括:1.回顾基础知识,确保熟悉Python的安装和基本语法;2.理解Python的核心概念,如变量、列表、函数等;3.通过使用示例掌握基本和高级用法;4.学习常见错误与调试技巧;5.应用性能优化与最佳实践,如使用列表推导式和遵循PEP8风格指南。

Python适合初学者和数据科学,C 适用于系统编程和游戏开发。1.Python简洁易用,适用于数据科学和Web开发。2.C 提供高性能和控制力,适用于游戏开发和系统编程。选择应基于项目需求和个人兴趣。

Python更适合数据科学和快速开发,C 更适合高性能和系统编程。1.Python语法简洁,易于学习,适用于数据处理和科学计算。2.C 语法复杂,但性能优越,常用于游戏开发和系统编程。

每天投入两小时学习Python是可行的。1.学习新知识:用一小时学习新概念,如列表和字典。2.实践和练习:用一小时进行编程练习,如编写小程序。通过合理规划和坚持不懈,你可以在短时间内掌握Python的核心概念。

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

WebStorm Mac版
好用的JavaScript开发工具

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

记事本++7.3.1
好用且免费的代码编辑器