您好,我在kaggle上发现了一个网站使用时间的数据集,所以我想找到访问页面数与网站总时间之间的比率。
您可以在我的github中找到数据集和代码:https://github.com/victordalet/Kaggle_analysis/tree/feat/website_traffic
为此,我在 python 中使用 sqlalchemy 将 csv 转换为数据库,并以绘图方式显示我的结果。
pip install plotly pip install sqlalchemy
我创建一个 Main 类,在其中使用 get_data 方法检索 csv 并将其放入数据库中。
结果是一个元组列表,因此我创建了transform_data方法来获取双列表。
最后,我可以显示查看的页面数和总时间之间的简单图表。
import pandas as pd from sqlalchemy import create_engine, text import plotly.express as px class Main: def __init__(self): self.result = None self.connection = None self.engine = create_engine("sqlite:///my_database.db", echo=False) self.df = pd.read_csv("website_wata.csv") self.df.to_sql("website_data", self.engine, index=False, if_exists="append") self.get_data() self.transform_data() self.display_graph() def get_data(self): self.connection = self.engine.connect() query = text("SELECT Page_Views, Time_on_Page FROM website_data") self.result = self.connection.execute(query).fetchall() def transform_data(self): for i in range(len(self.result)): self.result[i] = list(self.result[i]) def display_graph(self): fig = px.scatter( self.result, x=0, y=1, title="" ) fig.show() Main()
x 轴表示用户访问的页面数,而 y 轴表示用户在网站上花费的时间(以分钟为单位)。
我们可以看到,在 4 到 6 个页面之间停留时间最长的用户,在 11 到 15 个页面之间,所有用户都至少停留了几分钟。
以上是网站时间数据集的详细内容。更多信息请关注PHP中文网其他相关文章!