ホームページ >バックエンド開発 >Python チュートリアル >Python データ分析の実践的な概要 データ分析
Python チュートリアルこのコラムでは概要データを紹介します。
推奨 (無料): Python チュートリアル
記事ディレクトリ
ビッグ データ業界の発展状況:
現在、データは爆発的な 成長を示しており、今後もその可能性はあります。毎分データが 100% であること :
13,000 件の iPhone アプリがダウンロードされた
98,000 件の新しい Weibo 投稿が Twitter に投稿された
ビッグデータ活用は一定の規模に達していることがわかるが、まだ開発の余地がたくさんあります。
人材ニーズには主に次のようなものがあります:
データ アナリストが解決する必要がある問題:
需要の見積もり、割り当て生産能力 ビッグデータの時代では、データを解釈する能力がさらに必要とされます。 Q: オーブンの生産能力には限りがありますが、どの種類のパンを生産すべきですか?
A: 最も人気のあるパンをリストアップし、スター製品
を優先して生産します。
マーケティング プランの有効性を評価する 統計は単にデータを分析するだけではなく、分析結果から顧客の行動にどのような影響を与えるかを推測し、具体的な
事業計画
を策定し、それに基づいて行動することが重要です。 Q: オンラインでパンを販売したい場合、どの種類の広告がより効果的ですか?
を使用するのが最善の方法です。一定期間後に、どちらの広告効果が優れているかを観察してから、それを使用します。より効果的な広告を大規模に展開します。
製品の品質管理
結果と結果の原因との関係を発見することは非常に重要です。
Q: パン屋が手を抜いたかどうかは、パンからどのように判断できますか? A: いくつかのパンをランダムにチェックし、秤を使って重量の差が大きすぎるかどうかを確認します。 最初にパンの平均重量を知り、次にパンのサンプルを採取して、パンの重量が正規分布の釣鐘型の曲線を示すかどうかを確認する必要がありますか?曲線から逸脱している場合は、パンの品質に問題がある可能性があります。次のように:#########
優れたデータ アナリストは優れた製品プランナーであり、業界の リーダーです ;
IT 企業では、優秀なデータ アナリストは非常に有望です。会社。
データ アナリストのワークフローは次のとおりです:
データ アナリストの 3 つの主要なタスク:
データ アナリストに必要な 8 つのスキル:
データアナリストに求められる3大能力:
典型的なデータ アナリストの成長履歴:
3. データ アナリストへの道
データ アナリストになるための自己修養:
データ アナリストが持つ必要があるスキルは次のとおりです:
Python を使い始めるのは難しくなく、数学的要件もそれほど高くありません。重要なのは、アルゴリズム ロジックを言語で表現する方法を知ることです。 Python には、カプセル化されたツール ライブラリとコマンドが多数あります。必要なのは、数学的手法を使用して問題を解決し、構築することです。
Python データ分析をすぐに始めたい場合は、Python 関連のツールキットを上手に活用する必要があります。
(1) Python の最大の特徴は、巨大でアクティブな
があることです。 Scientific Computing
(2) Python はライブラリを継続的に改良しているため、データ処理タスクの主要な代替手段となっています。一般的なプログラミングにおけるその強力な強みと組み合わせることで、データ ベースのアプリケーションを構築するための言語として Python を使用することができます。
一般的に使用されるデータ分析ライブラリ
##
Python は、3.X と 2.X の 2 つのメジャー バージョンに分かれています。
Python のバージョン 3.0 は、Python 3000、または略して Py3k と呼ばれることがよくあります。これは、Python の以前のバージョンと比較して大幅なアップグレードです。
あまり負担をかけないよう、Python 3.X は下位互換性を考慮して設計されていないため、以前の Python バージョン用に設計されたプログラムの多くは Python 3.X では正常に実行できません。
ほとんどのサードパーティ ライブラリは、Python 3.X バージョンとの互換性を保つために懸命に取り組んでいます。
2. Python をさまざまなシステムにインストールする
(1)Unix および Linux システム
./configure
scriptmake
brew install python
を実行して新しいバージョンをインストールできます。
Windows システムでは環境変数を設定する必要があります。
Python のインストール時に環境変数を追加することを選択しなかった場合は、環境変数を手動で追加する必要があります。Python をインストールするパス
XXX\PythonXXX および XXX\ を追加する必要がありますPythonXXX\Scripts
環境変数に
のそれぞれ #path=% で十分です。
システム設定に
を追加します。コンピューターを右クリック → プロパティ → システムの詳細設定 → システムのプロパティ → 環境変数 → パスをダブルクリック →
pip は Python のパッケージ インストールおよび管理ツールです。Python のインストール時に pip のインストールを選択できます。Python 2 >=2.7 では.9 または Python 3 >=3.4。 pip がインストールされていない場合は、次のコマンドを使用してインストールできます:
Linux または Macpip install -U pip
python -m pip install -U pip
5. 統合開発環境の選択PyCharm は JetBrains によって作成された Python IDE で、Mac OS、Windows、および Linux システムをサポートします。 デバッグ
、構文ハイライト、プロジェクト管理、コードジャンプ
、
スマートプロンプト、オートコンプリート、単体テスト、バージョン管理、その他の機能が含まれます。 https://www.jetbrains.com/pycharm/download/ で、適切なバージョンを選択してダウンロードしてインストールできます。 3. Anaconda の紹介とインストール
1.Anaconda とは
Anaconda は使用できるツールです科学技術コンピューティングの Python ディストリビューション は、Linux、Mac、および Windows システムをサポートしており、一般的に使用される科学コンピューティング ライブラリが組み込まれています。 公式 Python の 2 つの主要な問題点を解決します:
(1) パッケージ管理機能を提供し、Windows プラットフォームへのサードパーティ パッケージのインストールが頻繁に失敗するシナリオを解決します; (2) 環境管理機能を提供します。この関数は、Python の複数のバージョンの共存と切り替えの問題を解決する virtualenv に似ています。
2. Anaconda をダウンロードしてインストールします
Python3 .8Personal Edition
のインストールパッケージで十分ですが、公式サイトからのダウンロード速度が遅いため、Python 3.8 に対応した Anaconda のインストールパッケージをダウンロードして整理しました。直接クリックして QQ グループを追加できます963624318 グループ フォルダー Python 関連インストール パッケージ からダウンロードするだけです。 ダウンロード後、直接インストールします。クリックプロセス中に、環境変数を追加するためのプロンプトが表示されることに注意してください。次のように確認する必要があります。
最後に [次へ] をクリックします。インストールが完了したら、Win キー (Windows システムの場合) をクリックして、以下に示すように最近追加されたアプリケーション リスト A を表示します。
この時点で、以下に示すように、Anaconda Navigator
をクリックできます。
環境が Python 3.8.3 であり、基本的なAnaconda によって作成された環境は、base という名前で、デフォルトの環境でもあり、デフォルトでインストールされているライブラリも確認できます。
Anaconda コマンド ライン ツール Anaconda Powershell プロンプト
python -V
と入力すると、Python 3.8.3 も出力されます。 conda create --name py27 python=2.7
などのコマンドを使用して新しい conda 環境を作成することもできます。実行後、py27 という名前の Python バージョン 2.7 の conda 環境が作成されます。作成した。
conda activate py27 を実行し、コマンド
conda deactivate
コマンド ラインで
conda list を実行すると、次のようにインストールされているライブラリを表示できます:
# packages in environment at E:\Anaconda3: # # Name Version Build Channel _ipyw_jlab_nb_ext_conf 0.1.0 py38_0 alabaster 0.7.12 py_0 anaconda 2020.07 py38_0 anaconda-client 1.7.2 py38_0 anaconda-navigator 1.9.12 py38_0 ... zlib 1.2.11 h62dcd97_4 zope 1.0 py38_1 zope.event 4.4 py38_0 zope.interface 4.7.1 py38he774522_0 zstd 1.4.5 ha9fde0e_0
3. conda ツールとパッケージ管理の概要
パッケージ管理 と 環境管理
のためのツールです。その機能は、pip と virtualenv の組み合わせに似ています。Conda の環境管理は次のとおりです。基本的には virtualenv と同様の操作です。 インストールが正常に完了すると、デフォルトで conda が環境変数に追加されるため、コマンド ライン ウィンドウで conda コマンドを直接実行できます。 一般的な conda コマンドとその意味は次のとおりです:
コマンドの意味
conda –h | |
---|---|
python3.6 バージョンに基づいて python36 という名前の環境を作成します | conda create - -name python36 python=3.6 |
この環境をアクティブ化します | python36 (Windows) をアクティブ化し、ソース python36 (linux/mac) をアクティブ化します |
Python のバージョンを表示 | python -V |
現在の環境を終了 | python36 を非アクティブ化 |
環境を削除します | conda delete -n py27 --all |
インストールされているすべての環境を表示します | conda info -e |
一般的な conda パッケージ管理コマンドは次のとおりです。 |
パッケージ管理コマンドの意味
matplotlib のインストール | |
---|---|
インストールされているパッケージの表示 | conda リスト |
パッケージの更新 | conda 更新 matplotlib |
パッケージの削除 | conda 削除 matplotlib |
##conda では、 | 何でもパッケージ、すべてがパッケージ | 、conda 自体もパッケージと見なすことができ、Python 環境もパッケージと見なすことができ、anaconda はこれはパッケージであるともみなされるため、更新をサポートする通常のサードパーティ パッケージに加えて、これら 3 つのパッケージは次のコマンドもサポートします:
#Operation
conda 自体を更新します | |
---|---|
anaconda アプリケーションを更新します | conda update anaconda |
現在の Python 環境が 3.8.1 で最新バージョンが 3.8.2 であると仮定して、Python を更新すると、3.8.2 にアップグレードされます | conda 更新 Python |
四、Jupyter Notebook 1.Jupyter Notebook基本介绍 Jupyter Notebook(此前被称为IPython notebook)是一个交互式笔记本,支持运行40多种编程语言。 在开始使用notebook之前,需要先安装该库: 在命令行中执行 可以看到,notebook界面由以下部分组成: 2.Jupyter Notebook的使用 在Jupyter页面下方的主要区域,由被称为单元格的部分组成。每个notebook由多个单元格构成,而每个单元格又可以有不同的用途。 如果想新建一个notebook,只需要点击New,选择希望启动的notebook类型即可。 简单使用示意如下: 可以看到,notebook可以修改之前的单元格,对其重新计算,这样就可以更新整个文档了。如果你不想重新运行整个脚本,只想用不同的参数测试某个程式的话,这个特性显得尤其强大。 再测试标题和其他代码如下: 可以看到,在顶部添加了一个notebook的标题,还可以执行for循环等语句。 3.Jupyter中使用Python Jupyter测试Python变量和数据类型如下: 测试Python函数如下: 测试Python模块如下: 可以看到,在执行出错时,也会抛出异常。 测试数据读写如下: 数据读写很重要,因为进行数据分析时必须先读取数据,进行数据处理后也要进行保存。 4.数据交互案例 加载csv数据,处理数据,保存到MongoDB数据库 有csv文件Python データ分析の実践的な概要 データ分析.csv和Python データ分析の実践的な概要 データ分析.csv,分别是商品数据和用户评分数据,如下:
现在需要通过Python将其读取出来,并将指定的字段保存到MongoDB中,需要在Anaconda中执行命令 Python代码如下: import pymongoclass Product: def __init__(self,productId:int ,name, imageUrl, categories, tags): self.productId = productId self.name = name self.imageUrl = imageUrl self.categories = categories self.tags = tags def __str__(self) -> str: return self.productId +'^' + self.name +'^' + self.imageUrl +'^' + self.categories +'^' + self.tagsclass Rating: def __init__(self, userId:int, productId:int, score:float, timestamp:int): self.userId = userId self.productId = productId self.score = score self.timestamp = timestamp def __str__(self) -> str: return self.userId +'^' + self.productId +'^' + self.score +'^' + self.timestampif __name__ == '__main__': myclient = pymongo.MongoClient("mongodb://127.0.0.1:27017/") mydb = myclient["goods-users"] # val attr = item.split("\\^") # // 转换成Product # Product(attr(0).toInt, attr(1).trim, attr(4).trim, attr(5).trim, attr(6).trim) Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析'] with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f: item = f.readline() while item: attr = item.split('^') product = Product(int(attr[0]), attr[1].strip(), attr[4].strip(), attr[5].strip(), attr[6].strip()) Python データ分析の実践的な概要 データ分析.insert_one(product.__dict__) # print(product) # print(json.dumps(obj=product.__dict__,ensure_ascii=False)) item = f.readline() # val attr = item.split(",") # Rating(attr(0).toInt, attr(1).toInt, attr(2).toDouble, attr(3).toInt) Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析'] with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f: item = f.readline() while item: attr = item.split(',') rating = Rating(int(attr[0]), int(attr[1].strip()), float(attr[2].strip()), int(attr[3].strip())) Python データ分析の実践的な概要 データ分析.insert_one(rating.__dict__) # print(rating) item = f.readline() 在启动MongoDB服务后,运行Python代码,运行完成后,再通过Robo 3T查看数据库如下: 显然,保存数据成功。 使用Jupyter处理商铺数据 待处理的数据是商铺数据,如下: 包括名称、评论数、价格、地址、评分列表等,其中评论数、价格和评分均不规则、需要进行数据清洗。
Jupyter中处理如下: 可以看到,最后得到了经过清洗后的规则数据。 完整Python代码如下: # 数据读取f = open('商铺数据.csv', 'r', encoding='utf8')for i in f.readlines()[1:15]: print(i.split(','))# 创建comment、price、commentlist清洗函数def fcomment(s): '''comment清洗函数:用空格分段,选取结果list的第一个为点评数,并且转化为整型''' if '条' in s: return int(s.split(' ')[0]) else: return '缺失数据'def fprice(s): '''price清洗函数:用¥分段,选取结果list的最后一个为人均价格,并且转化为浮点型''' if '¥' in s: return float(s.split('¥')[-1]) else: return '缺失数据'def fcommentl(s): '''commentlist清洗函数:用空格分段,分别清洗出质量、环境及服务数据,并转化为浮点型''' if ' ' in s: quality = float(s.split(' ')[0][2:]) environment = float(s.split(' ')[1][2:]) service = float(s.split(' ')[2][2:-1]) return [quality, environment, service] else: return '缺失数据'# 数据处理清洗datalist = [] # 创建空列表f.seek(0)n = 0 # 创建计数变量for i in f.readlines(): data = i.split(',') # print(data) classify = data[0] # 提取分类 name = data[1] # 提取店铺名称 comment_count = fcomment(data[2]) # 提取评论数量 star = data[3] # 提取星级 price = fprice(data[4]) # 提取人均 address = data[5] # 提取地址 quality = fcommentl(data[6])[0] # 提取质量评分 env = fcommentl(data[6])[1] # 提取环境评分 service = fcommentl(data[6])[2] # 提取服务评分 if '缺失数据' not in [comment_count, price, quality]: # 用于判断是否有数据缺失 n += 1 data_re = [['classify', classify], ['name', name], ['comment_count', comment_count], ['star', star], ['price', price], ['address', address], ['quality', quality], ['environment', env], ['service', service]] datalist.append(dict(data_re)) # 字典生成,并存入列表datalist print('成功加载%i条数据' % n) else: continueprint(datalist)print('总共加载%i条数据' % n)f.close() 更多编程相关知识,请访问:编程教学!! |
以上がPython データ分析の実践的な概要 データ分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。