Python データ分析の実践的な概要データ分析-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python データ分析の実践的な概要データ分析

coldplay.xixi

Jan 06, 2021 am 09:48 AM

pythonデータ分析

Python チュートリアルこのコラムでは概要データを紹介します。

Python データ分析の実践的な概要データ分析

推奨 (無料): Python チュートリアル

記事ディレクトリ

1. データ分析の概要
- 1. ビッグデータ時代の基礎
- 2. データアナリストのキャリア展望
- 3. データアナリストへの道
2. Python のインストールと環境構成
- 1.Python バージョン
- 2. Python を別のシステムにインストールする
- #4. pip をインストールする
- ##5. 統合開発環境の選択
3. Anaconda の紹介とインストール
##1. Anaconda とは
##2. Anaconda をダウンロードしてインストールします
- 3 .conda ツールとパッケージ管理の概要
- 4. Jupyter Notebook
2. Jupyter Notebook の使用法
- 4. データ対話のケース
- csv データを読み込み、データを処理し、保存します。 MongoDB データベース
- Jupyter を使用してストアデータを処理する

## 1. ビッグデータ時代の基礎

ビッグデータ業界の発展状況:

現在、データは

爆発的な 成長を示しており、今後もその可能性はあります。毎分データが 100% であること :

13,000 件の iPhone アプリがダウンロードされた
98,000 件の新しい Weibo 投稿が Twitter に投稿された

1 億 6,800 万件のメールが送信された

タオバオダブルイレブン 10,680 新規注文
12306 発券数 1840 チケット
ビッグデータの時代には、3 つの大きな変化が起こりました:
ランダムサンプルから完全なデータへ

精度から交絡まで

因果関係から相関関係まで

典型的な例を挙げてください:
男性は、病院に行くときにおむつを購入します。スーパーマーケットのビール、ビッグデータ分析の結果により、スーパーマーケットはおむつの棚の近くにビールを置くようになり、それによって売上が増加しましたおむつの購入とビールの購入には因果関係はありませんが、一定の相関関係があります。
国内のビッグデータ活用状況は以下の通り(CSDNより):

ビッグデータ活用は一定の規模に達していることがわかるが、まだ開発の余地がたくさんあります。

人材ニーズには主に次のようなものがあります:
Python データ分析の実践的な概要データ分析

データアナリスト

統計分析

予測分析

プロセスの最適化
- ビッグデータエンジニア
- プラットフォーム開発
アプリケーション開発
テクニカルサポート
- データアーキテクト
- ビジネスの理解
アプリケーションのデプロイメント
アーキテクチャ設計
- データ分析を学ぶ必要がある理由は、データがあるためです。がより一般的かつ安価になりつつある中、分析は付加価値を伴う希少なサービスを提供できます。
2. データアナリストのキャリアの見通し

データアナリストが解決する必要がある問題:

需要の見積もり、割り当て生産能力 ビッグデータの時代では、データを解釈する能力がさらに必要とされます。 Q: オーブンの生産能力には限りがありますが、どの種類のパンを生産すべきですか?

A: 最も人気のあるパンをリストアップし、

スター製品

を優先して生産します。

マーケティングプランの有効性を評価する 統計は単にデータを分析するだけではなく、分析結果から顧客の行動にどのような影響を与えるかを推測し、具体的な
事業計画
を策定し、それに基づいて行動することが重要です。 Q: オンラインでパンを販売したい場合、どの種類の広告がより効果的ですか?
A: 2 種類のコピーライティングを作成し、一定期間宣伝して、どれだけ効果があるかを確認してください。
ランダム化比較実験
を使用するのが最善の方法です。一定期間後に、どちらの広告効果が優れているかを観察してから、それを使用します。より効果的な広告を大規模に展開します。

製品の品質管理
結果と結果の原因との関係を発見することは非常に重要です。
Q: パン屋が手を抜いたかどうかは、パンからどのように判断できますか? A: いくつかのパンをランダムにチェックし、秤を使って重量の差が大きすぎるかどうかを確認します。 最初にパンの平均重量を知り、次にパンのサンプルを採取して、パンの重量が正規分布の釣鐘型の曲線を示すかどうかを確認する必要がありますか?曲線から逸脱している場合は、パンの品質に問題がある可能性があります。次のように：＃＃＃＃＃＃＃＃＃

優れたデータアナリストは優れた製品プランナーであり、業界の リーダーです ;
IT 企業では、優秀なデータアナリストは非常に有望です。会社。

データアナリストのワークフローは次のとおりです:
Python データ分析の実践的な概要データ分析

データアナリストの 3 つの主要なタスク:

履歴の分析
未来を予測する
最適化の選択

データアナリストに必要な 8 つのスキル:

統計
- 統計テスト、 P 値、分布、推定
基本ツール
- Python
- SQL
多変数微積分和線形代数
データソート
データ視覚化
ソフトウェアエンジニアリング
機械学習
データサイエンティストの思考
- データドリブン
- 問題解決

データアナリストに求められる3大能力:

統計的基礎と分析の応用ツール
コンピュータコーディング能力
特定のアプリケーション領域または業界に関する知識

典型的なデータアナリストの成長履歴:
Python データ分析の実践的な概要データ分析

3. データアナリストへの道

データアナリストになるための自己修養:

敏感な
探索
詳細
実践的

データアナリストが持つ必要があるスキルは次のとおりです:

Excel データ処理に精通している
データセンシティブな高い学位
会社のビジネスおよび業界の知識に精通している
データ分析手法をマスターしている
- 基本的な分析手法
  - 対照分析法
  - グループ分析法
  - クロス分析法
  - 構造分析法
  - ファネルプロット分析法
  - 総合評価分析手法
  - 因子分析手法
  - マトリックス相関分析
- ##高度な分析手法
  - 回帰分析手法
  - クラスター分析手法
  - 判別分析手法
  - 主成分分析手法
  - コレスポンデンス分析手法
  - 時系列

異業種におけるデータ分析の実践担当者の仕事内容と責任：

- 日次売上・在庫表
- 商品販売予測
- 在庫計算と早期警告
- トラフィック分析関連テーブル
- レビュー
- 製品改善効果の検証
- #上級管理職へのメールとレポートの提供
- ##インターネット分析
#KPI指標モニタリング
各種定期レポート
- 特定のビジネス課題に対する分析レポート
- ビジネスのためのオフラインモデリングと分析
- データ分析の非常に重要な主題の基礎は数学ですが、数学が苦手でも問題はありません。
Python

Python は数学ではありません単なるプログラミング言語であり、自動化されたワークフローの確立を容易にするデータマイニング機械学習やその他のテクノロジの基礎となります;

Python を使い始めるのは難しくなく、数学的要件もそれほど高くありません。重要なのは、アルゴリズムロジックを言語で表現する方法を知ることです。 Python には、カプセル化されたツールライブラリとコマンドが多数あります。必要なのは、数学的手法を使用して問題を解決し、構築することです。
Python データ分析をすぐに始めたい場合は、Python 関連のツールキットを上手に活用する必要があります。
(1) Python の最大の特徴は、巨大でアクティブな
があることです。 Scientific Computing

コミュニティでは、科学技術コンピューティングに Python を使用する傾向がますます明らかになってきています。

(2) Python はライブラリを継続的に改良しているため、データ処理タスクの主要な代替手段となっています。一般的なプログラミングにおけるその強力な強みと組み合わせることで、データベースのアプリケーションを構築するための言語として Python を使用することができます。
一般的に使用されるデータ分析ライブラリ

Numpy

Scipy
- Pandas
- matplotlib
- 一般的に使用される高度なデータ分析ライブラリ
nltk
igraph
- scikit-learn

データの理解

データクリーニングと予備分析

描画と視覚化
データ集計とグループ化の処理
データマイニング
データ分析とデータマイニングに一般的に使用されるアルゴリズム:

線形回帰

時系列分析

分類アルゴリズム
クラスタリングアルゴリズム
次元削減アルゴリズム
データ分析を学習して取り組む方法は次のとおりです。

頻繁に考える

Do more

まとめ
## 2. Python のインストールと環境構成

#1.Python バージョン

Python は、3.X と 2.X の 2 つのメジャーバージョンに分かれています。
Python のバージョン 3.0 は、Python 3000、または略して Py3k と呼ばれることがよくあります。これは、Python の以前のバージョンと比較して大幅なアップグレードです。
あまり負担をかけないよう、Python 3.X は下位互換性を考慮して設計されていないため、以前の Python バージョン用に設計されたプログラムの多くは Python 3.X では正常に実行できません。
ほとんどのサードパーティライブラリは、Python 3.X バージョンとの互換性を保つために懸命に取り組んでいます。

2. Python をさまざまなシステムにインストールする

(1)Unix および Linux システム

http://www.python にアクセスしてください。 org /download/
Unix/Linux に適したソースコード圧縮パッケージを選択します
圧縮パッケージをダウンロードして解凍します
いくつかのオプションをカスタマイズする必要がある場合は、Modules/ を変更します。 Setup
Execute./configurescript
make
make install

http://www.python.org/download/

ダウンロードリストで Windows プラットフォームインストールパッケージを選択します
963624318 グループフォルダー
Python 関連インストールパッケージからダウンロードするだけです。ダウンロード後、ダウンロードパッケージをダブルクリックして Python インストールウィザードを開始します。インストールは非常に簡単です。デフォルト設定を使用し、インストールが完了するまで
をクリックするだけです。

には Python 2.7 が付属しています。

brew install python
を実行して新しいバージョンをインストールできます。

3. 環境変数の設定

Windows システムでは環境変数を設定する必要があります。

Python のインストール時に環境変数を追加することを選択しなかった場合は、環境変数を手動で追加する必要があります。Python をインストールするパス

XXX\PythonXXX

および XXX\ を追加する必要がありますPythonXXX\Scripts 環境変数に

コマンドライン追加

path=%path%;XXX\PythonXXX
と ## を実行する方法があります。 CMD path%;XXX\PythonXXX\Scripts のそれぞれ #path=% で十分です。 システム設定に を追加します。コンピューターを右クリック → プロパティ → システムの詳細設定 → システムのプロパティ → 環境変数 → パスをダブルクリック →
と # を追加します##XXX\PythonXXX\ Scripts
インストールパスは次のとおりです:
最後に [確認] をクリックして終了します。

4. pip のインストール

pip は Python のパッケージインストールおよび管理ツールです。Python のインストール時に pip のインストールを選択できます。Python 2 >=2.7 では.9 または Python 3 >=3.4。 pip がインストールされていない場合は、次のコマンドを使用してインストールできます:

Linux または Mac

pip install -U pip

Windows（ cmd 入力） python -m pip install -U pip
5. 統合開発環境の選択

#PyCharm などを含む多くの Python エディタがあります。ここでは PyCharm を選択します:

PyCharm は JetBrains によって作成された Python IDE で、Mac OS、Windows、および Linux システムをサポートします。デバッグ

、構文ハイライト、プロジェクト管理、

コードジャンプ
、
スマートプロンプト、オートコンプリート、単体テスト、バージョン管理、その他の機能が含まれます。 https://www.jetbrains.com/pycharm/download/ で、適切なバージョンを選択してダウンロードしてインストールできます。 3. Anaconda の紹介とインストール

1.Anaconda とは

Anaconda は使用できるツールです

科学技術コンピューティングの Python ディストリビューション は、Linux、Mac、および Windows システムをサポートしており、一般的に使用される科学コンピューティングライブラリが組み込まれています。 公式 Python の 2 つの主要な問題点を解決します:

(1) パッケージ管理機能を提供し、Windows プラットフォームへのサードパーティパッケージのインストールが頻繁に失敗するシナリオを解決します;

(2) 環境管理機能を提供します。この関数は、Python の複数のバージョンの共存と切り替えの問題を解決する virtualenv に似ています。
2. Anaconda をダウンロードしてインストールします

公式 Web サイト https://www.anaconda.com/products/inpidual からインストールパッケージを直接ダウンロードし、ダウンロードを選択します

Python3 .8Personal Edition

のインストールパッケージで十分ですが、公式サイトからのダウンロード速度が遅いため、Python 3.8 に対応した Anaconda のインストールパッケージをダウンロードして整理しました。直接クリックして QQ グループを追加できます

963624318 グループフォルダー Python 関連インストールパッケージ からダウンロードするだけです。ダウンロード後、直接インストールします。クリックプロセス中に、環境変数を追加するためのプロンプトが表示されることに注意してください。次のように確認する必要があります。

最後に [次へ] をクリックします。インストールが完了したら、Win キー (Windows システムの場合) をクリックして、以下に示すように最近追加されたアプリケーションリスト A を表示します。
この時点で、以下に示すように、启动栏最近添加 Anaconda Navigator
をクリックできます。启动栏 A

環境が Python 3.8.3 であり、基本的なAnaconda によって作成された環境は、base という名前で、デフォルトの環境でもあり、デフォルトでインストールされているライブラリも確認できます。
Anaconda コマンドラインツール Anaconda Navigator Anaconda Powershell プロンプト

を開き、

python -V

と入力すると、

Python 3.8.3 も出力されます。 conda create --name py27 python=2.7などのコマンドを使用して新しい conda 環境を作成することもできます。実行後、py27 という名前の Python バージョン 2.7 の conda 環境が作成されます。作成した。

環境をアクティブにしてコマンド

conda activate py27 を実行し、コマンド conda deactivate

を非アクティブにします。

コマンドラインで conda list を実行すると、次のようにインストールされているライブラリを表示できます:

# packages in environment at E:\Anaconda3:
#
# Name                    Version                   Build  Channel
_ipyw_jlab_nb_ext_conf    0.1.0                    py38_0
alabaster                 0.7.12                     py_0
anaconda                  2020.07                  py38_0
anaconda-client           1.7.2                    py38_0
anaconda-navigator        1.9.12                   py38_0
...
zlib                      1.2.11               h62dcd97_4
zope                      1.0                      py38_1
zope.event                4.4                      py38_0
zope.interface            4.7.1            py38he774522_0
zstd                      1.4.5                ha9fde0e_0

3. conda ツールとパッケージ管理の概要

conda は、Anaconda の

パッケージ管理と環境管理

のためのツールです。その機能は、pip と virtualenv の組み合わせに似ています。Conda の環境管理は次のとおりです。基本的には virtualenv と同様の操作です。

インストールが正常に完了すると、デフォルトで conda が環境変数に追加されるため、コマンドラインウィンドウで conda コマンドを直接実行できます。一般的な conda コマンドとその意味は次のとおりです:

コマンドの意味

conda コマンドconda –hヘルプを表示python3.6 バージョンに基づいて python36 という名前の環境を作成しますconda create - -name python36 python=3.6この環境をアクティブ化しますpython36 (Windows) をアクティブ化し、ソース python36 (linux/mac) をアクティブ化しますPython のバージョンを表示python -V現在の環境を終了python36 を非アクティブ化環境を削除しますconda delete -n py27 --allインストールされているすべての環境を表示しますconda info -e








	一般的な conda パッケージ管理コマンドは次のとおりです。

パッケージ管理コマンドの意味

パッケージ管理コマンドmatplotlib のインストールconda install matplotlibインストールされているパッケージの表示conda リストパッケージの更新conda 更新 matplotlibパッケージの削除conda 削除 matplotlib##conda では、、conda 自体もパッケージと見なすことができ、Python 環境もパッケージと見なすことができ、anaconda はこれはパッケージであるともみなされるため、更新をサポートする通常のサードパーティパッケージに加えて、これら 3 つのパッケージは次のコマンドもサポートします:





	何でもパッケージ、すべてがパッケージ

#Operation

コマンドconda update conda

conda 自体を更新します

anaconda アプリケーションを更新します conda update anaconda

現在の Python 環境が 3.8.1 で最新バージョンが 3.8.2 であると仮定して、Python を更新すると、3.8.2 にアップグレードされます conda 更新 Python

	conda 自体を更新します
anaconda アプリケーションを更新します	conda update anaconda
現在の Python 環境が 3.8.1 で最新バージョンが 3.8.2 であると仮定して、Python を更新すると、3.8.2 にアップグレードされます	conda 更新 Python
四、Jupyter Notebook 1.Jupyter Notebook基本介绍 Jupyter Notebook（此前被称为IPython notebook）是一个交互式笔记本，支持运行40多种编程语言。在开始使用notebook之前，需要先安装该库：（1）在命令行中执行`pip install jupyter`来安装；（2）安装Anaconda后自带Jupyter Notebook。在命令行中执行`jupyter notebook`，就会在当前目录下启动Jupyter服务并使用默认浏览器打开页面，还可以复制链接到其他浏览器中打开，如下：可以看到，notebook界面由以下部分组成：（1）notebook名称；（2）主工具栏，提供了保存、导出、重载notebook，以及重启内核等选项；（3）notebook主要区域，包含了notebook的内容编辑区。 2.Jupyter Notebook的使用在Jupyter页面下方的主要区域，由被称为单元格的部分组成。每个notebook由多个单元格构成，而每个单元格又可以有不同的用途。上图中看到的是一个代码单元格（code cell），以`[ ]`开头，在这种类型的单元格中，可以输入任意代码并执行。例如，输入`1 + 2`并按下`Shift + Enter`，单元格中的代码就会被计算，光标也会被移动到一个新的单元格中。如果想新建一个notebook，只需要点击New，选择希望启动的notebook类型即可。简单使用示意如下：可以看到，notebook可以修改之前的单元格，对其重新计算，这样就可以更新整个文档了。如果你不想重新运行整个脚本，只想用不同的参数测试某个程式的话，这个特性显得尤其强大。不过，也可以重新计算整个notebook，只要点击`Cell -> Run all`即可。再测试标题和其他代码如下：可以看到，在顶部添加了一个notebook的标题，还可以执行for循环等语句。 3.Jupyter中使用Python Jupyter测试Python变量和数据类型如下：测试Python函数如下：测试Python模块如下：可以看到，在执行出错时，也会抛出异常。测试数据读写如下：数据读写很重要，因为进行数据分析时必须先读取数据，进行数据处理后也要进行保存。 4.数据交互案例加载csv数据，处理数据，保存到MongoDB数据库有csv文件Python データ分析の実践的な概要データ分析.csv和Python データ分析の実践的な概要データ分析.csv，分别是商品数据和用户评分数据，如下：如需获取数据、代码等相关文件进行测试学习，可以直接点击加QQ群 963624318 在群文件夹Python数据分析实战中下载即可。现在需要通过Python将其读取出来，并将指定的字段保存到MongoDB中，需要在Anaconda中执行命令`conda install pymongo`安装pymongo。 Python代码如下： import pymongoclass Product: def __init__(self,productId:int ,name, imageUrl, categories, tags): self.productId = productId self.name = name self.imageUrl = imageUrl self.categories = categories self.tags = tags def __str__(self) -> str: return self.productId +'^' + self.name +'^' + self.imageUrl +'^' + self.categories +'^' + self.tagsclass Rating: def __init__(self, userId:int, productId:int, score:float, timestamp:int): self.userId = userId self.productId = productId self.score = score self.timestamp = timestamp def __str__(self) -> str: return self.userId +'^' + self.productId +'^' + self.score +'^' + self.timestampif __name__ == '__main__': myclient = pymongo.MongoClient("mongodb://127.0.0.1:27017/") mydb = myclient["goods-users"] # val attr = item.split("\\^") # // 转换成Product # Product(attr(0).toInt, attr(1).trim, attr(4).trim, attr(5).trim, attr(6).trim) Python データ分析の実践的な概要データ分析 = mydb['Python データ分析の実践的な概要データ分析'] with open('Python データ分析の実践的な概要データ分析.csv', 'r',encoding='UTF-8') as f: item = f.readline() while item: attr = item.split('^') product = Product(int(attr[0]), attr[1].strip(), attr[4].strip(), attr[5].strip(), attr[6].strip()) Python データ分析の実践的な概要データ分析.insert_one(product.__dict__) # print(product) # print(json.dumps(obj=product.__dict__,ensure_ascii=False)) item = f.readline() # val attr = item.split(",") # Rating(attr(0).toInt, attr(1).toInt, attr(2).toDouble, attr(3).toInt) Python データ分析の実践的な概要データ分析 = mydb['Python データ分析の実践的な概要データ分析'] with open('Python データ分析の実践的な概要データ分析.csv', 'r',encoding='UTF-8') as f: item = f.readline() while item: attr = item.split(',') rating = Rating(int(attr[0]), int(attr[1].strip()), float(attr[2].strip()), int(attr[3].strip())) Python データ分析の実践的な概要データ分析.insert_one(rating.__dict__) # print(rating) item = f.readline() 在启动MongoDB服务后，运行Python代码，运行完成后，再通过Robo 3T查看数据库如下：显然，保存数据成功。使用Jupyter处理商铺数据待处理的数据是商铺数据，如下：包括名称、评论数、价格、地址、评分列表等，其中评论数、价格和评分均不规则、需要进行数据清洗。如需获取数据、代码等相关文件进行测试学习，可以直接点击加QQ群 963624318 在群文件夹Python数据分析实战中下载即可。 Jupyter中处理如下：可以看到，最后得到了经过清洗后的规则数据。完整Python代码如下： # 数据读取f = open('商铺数据.csv', 'r', encoding='utf8')for i in f.readlines()[1:15]: print(i.split(','))# 创建comment、price、commentlist清洗函数def fcomment(s): '''comment清洗函数：用空格分段，选取结果list的第一个为点评数，并且转化为整型''' if '条' in s: return int(s.split(' ')[0]) else: return '缺失数据'def fprice(s): '''price清洗函数：用￥分段，选取结果list的最后一个为人均价格，并且转化为浮点型''' if '￥' in s: return float(s.split('￥')[-1]) else: return '缺失数据'def fcommentl(s): '''commentlist清洗函数：用空格分段，分别清洗出质量、环境及服务数据，并转化为浮点型''' if ' ' in s: quality = float(s.split(' ')[0][2:]) environment = float(s.split(' ')[1][2:]) service = float(s.split(' ')[2][2:-1]) return [quality, environment, service] else: return '缺失数据'# 数据处理清洗datalist = [] # 创建空列表f.seek(0)n = 0 # 创建计数变量for i in f.readlines(): data = i.split(',') # print(data) classify = data[0] # 提取分类 name = data[1] # 提取店铺名称 comment_count = fcomment(data[2]) # 提取评论数量 star = data[3] # 提取星级 price = fprice(data[4]) # 提取人均 address = data[5] # 提取地址 quality = fcommentl(data[6])[0] # 提取质量评分 env = fcommentl(data[6])[1] # 提取环境评分 service = fcommentl(data[6])[2] # 提取服务评分 if '缺失数据' not in [comment_count, price, quality]: # 用于判断是否有数据缺失 n += 1 data_re = [['classify', classify], ['name', name], ['comment_count', comment_count], ['star', star], ['price', price], ['address', address], ['quality', quality], ['environment', env], ['service', service]] datalist.append(dict(data_re)) # 字典生成，并存入列表datalist print('成功加载%i条数据' % n) else: continueprint(datalist)print('总共加载%i条数据' % n)f.close() 更多编程相关知识，请访问：编程教学！！

四、Jupyter Notebook

1.Jupyter Notebook基本介绍

Jupyter Notebook（此前被称为IPython notebook）是一个交互式笔记本，支持运行40多种编程语言。

在开始使用notebook之前，需要先安装该库：
（1）在命令行中执行pip install jupyter来安装；
（2）安装Anaconda后自带Jupyter Notebook。

在命令行中执行jupyter notebook，就会在当前目录下启动Jupyter服务并使用默认浏览器打开页面，还可以复制链接到其他浏览器中打开，如下：
jupyter 界面

可以看到，notebook界面由以下部分组成：
（1）notebook名称；
（2）主工具栏，提供了保存、导出、重载notebook，以及重启内核等选项；
（3）notebook主要区域，包含了notebook的内容编辑区。

2.Jupyter Notebook的使用

在Jupyter页面下方的主要区域，由被称为单元格的部分组成。每个notebook由多个单元格构成，而每个单元格又可以有不同的用途。
上图中看到的是一个代码单元格（code cell），以[ ]开头，在这种类型的单元格中，可以输入任意代码并执行。
例如，输入1 + 2并按下Shift + Enter，单元格中的代码就会被计算，光标也会被移动到一个新的单元格中。

如果想新建一个notebook，只需要点击New，选择希望启动的notebook类型即可。

简单使用示意如下：
python da jupyter simple

可以看到，notebook可以修改之前的单元格，对其重新计算，这样就可以更新整个文档了。如果你不想重新运行整个脚本，只想用不同的参数测试某个程式的话，这个特性显得尤其强大。
不过，也可以重新计算整个notebook，只要点击Cell -> Run all即可。

再测试标题和其他代码如下：
python da jupyter for head

可以看到，在顶部添加了一个notebook的标题，还可以执行for循环等语句。

3.Jupyter中使用Python

Jupyter测试Python变量和数据类型如下：
python da jupyter variable data type

测试Python函数如下：
python da jupyter function

测试Python模块如下：
python da jupyter module package

可以看到，在执行出错时，也会抛出异常。

测试数据读写如下：
python da jupyter data io

数据读写很重要，因为进行数据分析时必须先读取数据，进行数据处理后也要进行保存。

4.数据交互案例

加载csv数据，处理数据，保存到MongoDB数据库

有csv文件Python データ分析の実践的な概要データ分析.csv和Python データ分析の実践的な概要データ分析.csv，分别是商品数据和用户评分数据，如下：
Python データ分析の実践的な概要データ分析

如需获取数据、代码等相关文件进行测试学习，可以直接点击加QQ群 963624318 在群文件夹Python数据分析实战中下载即可。

现在需要通过Python将其读取出来，并将指定的字段保存到MongoDB中，需要在Anaconda中执行命令conda install pymongo安装pymongo。

Python代码如下：

import pymongoclass Product:
    def __init__(self,productId:int ,name, imageUrl, categories, tags):
        self.productId = productId
        self.name = name
        self.imageUrl = imageUrl
        self.categories = categories
        self.tags = tags    def __str__(self) -> str:
        return self.productId +'^' + self.name +'^' + self.imageUrl +'^' + self.categories +'^' + self.tagsclass Rating:
    def __init__(self, userId:int, productId:int, score:float, timestamp:int):
        self.userId = userId
        self.productId = productId
        self.score = score
        self.timestamp = timestamp    def __str__(self) -> str:
        return self.userId +'^' + self.productId +'^' + self.score +'^' + self.timestampif __name__ == '__main__':
    myclient = pymongo.MongoClient("mongodb://127.0.0.1:27017/")
    mydb = myclient["goods-users"]
    # val attr = item.split("\\^")
    # // 转换成Product
    # Product(attr(0).toInt, attr(1).trim, attr(4).trim, attr(5).trim, attr(6).trim)

    Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析']
    with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f:
        item = f.readline()
        while item:
            attr = item.split('^')
            product = Product(int(attr[0]), attr[1].strip(), attr[4].strip(), attr[5].strip(), attr[6].strip())
            Python データ分析の実践的な概要 データ分析.insert_one(product.__dict__)
            # print(product)
            # print(json.dumps(obj=product.__dict__,ensure_ascii=False))
            item = f.readline()

    # val attr = item.split(",")
    # Rating(attr(0).toInt, attr(1).toInt, attr(2).toDouble, attr(3).toInt)
    Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析']
    with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f:
        item = f.readline()
        while item:
            attr = item.split(',')
            rating = Rating(int(attr[0]), int(attr[1].strip()), float(attr[2].strip()), int(attr[3].strip()))
            Python データ分析の実践的な概要 データ分析.insert_one(rating.__dict__)
            # print(rating)
            item = f.readline()

在启动MongoDB服务后，运行Python代码，运行完成后，再通过Robo 3T查看数据库如下：
robo 3T

显然，保存数据成功。

使用Jupyter处理商铺数据

待处理的数据是商铺数据，如下：
shop data

包括名称、评论数、价格、地址、评分列表等，其中评论数、价格和评分均不规则、需要进行数据清洗。

如需获取数据、代码等相关文件进行测试学习，可以直接点击加QQ群 963624318 在群文件夹Python数据分析实战中下载即可。

Jupyter中处理如下：
python da jupyter shop data

可以看到，最后得到了经过清洗后的规则数据。

完整Python代码如下：

# 数据读取f = open('商铺数据.csv', 'r', encoding='utf8')for i in f.readlines()[1:15]:
    print(i.split(','))# 创建comment、price、commentlist清洗函数def fcomment(s):
    '''comment清洗函数：用空格分段，选取结果list的第一个为点评数，并且转化为整型'''
    if '条' in s:
        return int(s.split(' ')[0])
    else:
        return '缺失数据'def fprice(s):
    '''price清洗函数：用￥分段，选取结果list的最后一个为人均价格，并且转化为浮点型'''
    if '￥' in s:
        return float(s.split('￥')[-1])
    else:
        return '缺失数据'def fcommentl(s):
    '''commentlist清洗函数：用空格分段，分别清洗出质量、环境及服务数据，并转化为浮点型'''
    if ' ' in s:
        quality = float(s.split('                                ')[0][2:])
        environment = float(s.split('                                ')[1][2:])
        service = float(s.split('                                ')[2][2:-1])
        return [quality, environment, service]
    else:
        return '缺失数据'# 数据处理清洗datalist = []  # 创建空列表f.seek(0)n = 0  # 创建计数变量for i in f.readlines():
    data = i.split(',')
    # print(data)
    classify = data[0]  # 提取分类
    name = data[1]  # 提取店铺名称
    comment_count = fcomment(data[2])  # 提取评论数量
    star = data[3]  # 提取星级
    price = fprice(data[4])  # 提取人均
    address = data[5]  # 提取地址
    quality = fcommentl(data[6])[0]  # 提取质量评分
    env = fcommentl(data[6])[1]  # 提取环境评分
    service = fcommentl(data[6])[2]  # 提取服务评分
    if '缺失数据' not in [comment_count, price, quality]:  # 用于判断是否有数据缺失
        n += 1
        data_re = [['classify', classify],
                   ['name', name],
                   ['comment_count', comment_count],
                   ['star', star],
                   ['price', price],
                   ['address', address],
                   ['quality', quality],
                   ['environment', env],
                   ['service', service]]
        datalist.append(dict(data_re))  # 字典生成，并存入列表datalist
        print('成功加载%i条数据' % n)
    else:
        continueprint(datalist)print('总共加载%i条数据' % n)f.close()

更多编程相关知识，请访问：编程教学！！

以上がPython データ分析の実践的な概要データ分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事はcsdnで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

numpyを使用してマルチディメンシャルアレイをどのように作成しますか？Apr 29, 2025 am 12:27 AM

Numpyを使用して多次元配列を作成すると、次の手順を通じて実現できます。1）numpy.array（）関数を使用して、np.array（[[1,2,3]、[4,5,6]]）などの配列を作成して2D配列を作成します。 2）np.zeros（）、np.ones（）、np.random.random（）およびその他の関数を使用して、特定の値で満たされた配列を作成します。 3）アレイの形状とサイズの特性を理解して、サブアレイの長さが一貫していることを確認し、エラーを回避します。 4）np.reshape（）関数を使用して、配列の形状を変更します。 5）コードが明確で効率的であることを確認するために、メモリの使用に注意してください。

Numpyアレイの「ブロードキャスト」の概念を説明します。Apr 29, 2025 am 12:23 AM

BroadcastinginNumPyisamethodtoperformoperationsonarraysofdifferentshapesbyautomaticallyaligningthem.Itsimplifiescode,enhancesreadability,andboostsperformance.Here'showitworks:1)Smallerarraysarepaddedwithonestomatchdimensions.2)Compatibledimensionsare

データストレージ用のリスト、array.array、およびnumpy配列を選択する方法を説明します。Apr 29, 2025 am 12:20 AM

Forpythondatastorage、chooseLists forfficability withmixeddatypes、array.arrayformemory-efficienthogeneousnumericaldata、およびnumpyArrays foradvancednumericalcomputing.listSareversatilebuteficient efficient forlargeNumericaldatates;

Pythonリストを使用することが配列を使用するよりも適切であるシナリオの例を挙げてください。Apr 29, 2025 am 12:17 AM

pythonlistsarebetterthanarrays formangingdiversedatypes.1）listscanholdelementsofdifferenttypes、2）adearedditionsandremovals、3）theeofferintutiveoperation likeslicing、but4）theearlessememory-effice-hemory-hemory-hemory-hemory-hemory-adlower-dslorededatas。

Pythonアレイ内の要素にどのようにアクセスしますか？Apr 29, 2025 am 12:11 AM

toaccesselementsinapythonarray、useindexing：my_array [2] Accessesthirderement、Returning3.pythonuseszero basedIndexing.1）usepositiveandnegativeindexing：my_list [0] forteefirstelement、my_list [-1] exterarast.2）

Pythonでタプルの理解が可能ですか？はいの場合、どうしてそうでない場合は？Apr 28, 2025 pm 04:34 PM

記事では、構文のあいまいさのためにPythonにおけるタプル理解の不可能性について説明します。 Tupple式を使用してTuple（）を使用するなどの代替は、Tuppleを効率的に作成するためにお勧めします。（159文字）

Pythonのモジュールとパッケージとは何ですか？Apr 28, 2025 pm 04:33 PM

この記事では、Pythonのモジュールとパッケージ、その違い、および使用について説明しています。モジュールは単一のファイルであり、パッケージは__init__.pyファイルを備えたディレクトリであり、関連するモジュールを階層的に整理します。

PythonのDocstringとは何ですか？Apr 28, 2025 pm 04:30 PM

記事では、PythonのDocstrings、それらの使用、および利点について説明します。主な問題：コードのドキュメントとアクセシビリティに関するドキュストリングの重要性。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。