ホームページ  >  記事  >  バックエンド開発  >  Python データ分析の実践的な概要 データ分析

Python データ分析の実践的な概要 データ分析

coldplay.xixi
coldplay.xixi転載
2021-01-06 09:48:392037ブラウズ

Python チュートリアルこのコラムでは概要データを紹介します。

Python データ分析の実践的な概要 データ分析

推奨 (無料): Python チュートリアル

記事ディレクトリ

  • 1. データ分析の概要
    • 1. ビッグデータ時代の基礎
    • 2. データ アナリストのキャリア展望
    • 3. データ アナリストへの道
  • 2. Python のインストールと環境構成
    • 1.Python バージョン
    • 2. Python を別のシステムにインストールする
    • ##3. 環境変数の設定
    • #4. pip をインストールする
    • ##5. 統合開発環境の選択
    3. Anaconda の紹介とインストール
  • ##1. Anaconda とは
  • ##2. Anaconda をダウンロードしてインストールします
    • 3 .conda ツールとパッケージ管理の概要
    • 4. Jupyter Notebook
  • ##1. Jupyter Notebook の基本的な概要
  • 2. Jupyter Notebook の使用法
    • 3. Jupyter での Python の使用
    • 4. データ対話のケース
    • csv データを読み込み、データを処理し、保存します。 MongoDB データベース
    • Jupyter を使用してストア データを処理する
    • 1. データ分析の概要
## 1. ビッグ データ時代の基礎

ビッグ データ業界の発展状況:

現在、データは

爆発的な 成長を示しており、今後もその可能性はあります。毎分データが 100% であること :

13,000 件の iPhone アプリがダウンロードされた
98,000 件の新しい Weibo 投稿が Twitter に投稿された

1 億 6,800 万件のメールが送信された
  • タオバオ ダブルイレブン 10,680 新規注文
  • 12306 発券数 1840 チケット
  • ビッグデータの時代には、3 つの大きな変化が起こりました:
  • ランダム サンプルから完全なデータへ
精度から交絡まで

因果関係から相関関係まで
  • 典型的な例を挙げてください:
  • 男性は、病院に行くときにおむつを購入します。スーパーマーケットのビール、ビッグデータ分析の結果により、スーパーマーケットはおむつの棚の近くにビールを置くようになり、それによって売上が増加しました おむつの購入とビールの購入には因果関係はありませんが、一定の相関関係があります。
  • 国内のビッグデータ活用状況は以下の通り(CSDNより):


ビッグデータ活用は一定の規模に達していることがわかるが、まだ開発の余地がたくさんあります。

人材ニーズには主に次のようなものがあります:
Python データ分析の実践的な概要 データ分析

データ アナリスト

統計分析

予測分析
  • プロセスの最適化
    • ビッグ データ エンジニア
    • プラットフォーム開発
    アプリケーション開発
  • テクニカル サポート
    • データ アーキテクト
    • ビジネスの理解
    アプリケーションのデプロイメント
  • アーキテクチャ設計
    • データ分析を学ぶ必要がある理由は、データがあるためです。がより一般的かつ安価になりつつある中、分析は付加価値を伴う希少なサービスを提供できます。
    2. データ アナリストのキャリアの見通し

データ アナリストが解決する必要がある問題:

需要の見積もり、割り当て生産能力 ビッグデータの時代では、データを解釈する能力がさらに必要とされます。 Q: オーブンの生産能力には限りがありますが、どの種類のパンを生産すべきですか?

A: 最も人気のあるパンをリストアップし、

スター製品

を優先して生産します。
    重要なのは、スター商品を見つけることです。そのためには、パンの総売上高を数え、次に総売上高に対する各種類のパンの相対的な割合を計算し、それを考慮できる製品の組み合わせの生産を優先する必要があります。売上高の 70%。これは、統計分布表とヒストグラムを使用します。この分析手法は、次のように ABC 分析手法とも呼ばれます:



  • マーケティング プランの有効性を評価する 統計は単にデータを分析するだけではなく、分析結果から顧客の行動にどのような影響を与えるかを推測し、具体的な
    事業計画
    を策定し、それに基づいて行動することが重要です。 Python データ分析の実践的な概要 データ分析 Q: オンラインでパンを販売したい場合、どの種類の広告がより効果的ですか?

    A: 2 種類のコピーライティングを作成し、一定期間宣伝して、どれだけ効果があるかを確認してください。
  • 広告効果を比較するには、2 種類の広告をランダムに表示する統計的な
  • ランダム化比較実験

    を使用するのが最善の方法です。一定期間後に、どちらの広告効果が優れているかを観察してから、それを使用します。より効果的な広告を大規模に展開します。

    製品の品質管理
    結果と結果の原因との関係を発見することは非常に重要です。
    Q: パン屋が手を抜いたかどうかは、パンからどのように判断できますか? A: いくつかのパンをランダムにチェックし、秤を使って重量の差が大きすぎるかどうかを確認します。 最初にパンの平均重量を知り、次にパンのサンプルを採取して、パンの重量が正規分布の釣鐘型の曲線を示すかどうかを確認する必要がありますか?曲線から逸脱している場合は、パンの品質に問題がある可能性があります。次のように:#########

優れたデータ アナリストは優れた製品プランナーであり、業界の リーダーです ;
IT 企業では、優秀なデータ アナリストは非常に有望です。会社。

データ アナリストのワークフローは次のとおりです:
Python データ分析の実践的な概要 データ分析

データ アナリストの 3 つの主要なタスク:

  • 履歴の分析
  • 未来を予測する
  • 最適化の選択

データ アナリストに必要な 8 つのスキル:

  • 統計
    • 統計テスト、 P 値、分布、推定
  • 基本ツール
    • Python
    • SQL
  • 多変数微積分和線形代数
  • データソート
  • データ視覚化
  • ソフトウェアエンジニアリング
  • 機械学習
  • データサイエンティストの思考
    • データドリブン
    • 問題解決

データアナリストに求められる3大能力:

  • 統計的基礎と分析の応用ツール
  • コンピュータ コーディング能力
  • 特定のアプリケーション領域または業界に関する知識

典型的なデータ アナリストの成長履歴:
Python データ分析の実践的な概要 データ分析

3. データ アナリストへの道

データ アナリストになるための自己修養:

  • 敏感な
  • 探索
  • 詳細
  • 実践的

データ アナリストが持つ必要があるスキルは次のとおりです:

  • Excel データ処理に精通している
  • データセンシティブな高い学位
  • 会社のビジネスおよび業界の知識に精通している
  • データ分析手法をマスターしている
    • 基本的な分析手法
      • 対照分析法
      • グループ分析法
      • クロス分析法
      • 構造分析法
      • ファネルプロット分析法
      • 総合評価分析手法
      • 因子分析手法
      • マトリックス相関分析
    • ##高度な分析手法
        相関分析手法
      • 回帰分析手法
      • クラスター分析手法
      • 判別分析手法
      • 主成分分析手法
      • 因子分析手法
      • コレスポンデンス分析手法
      • 時系列
異業種におけるデータ分析の実践担当者の仕事内容と責任:

    データ分析に携わる
    • 日報の作成を学ぶ
    • 日次売上・在庫表
    • 商品販売予測
    • 在庫計算と早期警告
    • トラフィック分析関連テーブル
    • レビュー
  • データ分析およびマイニング スタッフ
    • 製品最適化のためのデータサポートの提供
    • 製品改善効果の検証
    • #上級管理職へのメールとレポートの提供
    • ##インターネット分析
    #KPI指標モニタリング
  • 各種定期レポート
    • 特定のビジネス課題に対する分析レポート
    • ビジネスのためのオフラインモデリングと分析
    • データ分析の非常に重要な主題の基礎は数学ですが、数学が苦手でも問題はありません。
    Python
  • を使用して学習できます:
Python は数学ではありません単なるプログラミング言語であり、自動化されたワークフローの確立を容易にするデータ マイニング機械学習やその他のテクノロジの基礎となります;

Python を使い始めるのは難しくなく、数学的要件もそれほど高くありません。重要なのは、アルゴリズム ロジックを言語で表現する方法を知ることです。 Python には、カプセル化されたツール ライブラリとコマンドが多数あります。必要なのは、数学的手法を使用して問題を解決し、構築することです。
Python データ分析をすぐに始めたい場合は、Python 関連のツールキットを上手に活用する必要があります。
(1) Python の最大の特徴は、巨大でアクティブな
があることです。 Scientific Computing

コミュニティでは、科学技術コンピューティングに Python を使用する傾向がますます明らかになってきています。

(2) Python はライブラリを継続的に改良しているため、データ処理タスクの主要な代替手段となっています。一般的なプログラミングにおけるその強力な強みと組み合わせることで、データ ベースのアプリケーションを構築するための言語として Python を使用することができます。
一般的に使用されるデータ分析ライブラリ

Numpy
  • Scipy
    • Pandas
    • matplotlib
    • 一般的に使用される高度なデータ分析ライブラリ
    nltk
  • igraph
    • scikit-learn
    • (3) 科学技術コンピューティング プラットフォームとして、Python は C、C、Fortran コードを簡単に統合できます。
  • データ分析の準備:

データの理解

データクリーニングと予備分析
  • 描画と視覚化
  • データ集計とグループ化の処理
  • データ マイニング
  • データ分析とデータ マイニングに一般的に使用されるアルゴリズム:
線形回帰

時系列分析
  • 分類アルゴリズム
  • クラスタリング アルゴリズム
  • 次元削減アルゴリズム
  • データ分析を学習して取り組む方法は次のとおりです。
頻繁に考える

Do more
  • まとめ
  • ## 2. Python のインストールと環境構成
#1.Python バージョン

##

Python は、3.X と 2.X の 2 つのメジャー バージョンに分かれています。
Python のバージョン 3.0 は、Python 3000、または略して Py3k と呼ばれることがよくあります。これは、Python の以前のバージョンと比較して大幅なアップグレードです。
あまり負担をかけないよう、Python 3.X は下位互換性を考慮して設計されていないため、以前の Python バージョン用に設計されたプログラムの多くは Python 3.X では正常に実行できません。
ほとんどのサードパーティ ライブラリは、Python 3.X バージョンとの互換性を保つために懸命に取り組んでいます。

2. Python をさまざまなシステムにインストールする

(1)Unix および Linux システム

  • http://www.python にアクセスしてください。 org /download/
  • Unix/Linux に適したソース コード圧縮パッケージを選択します
  • 圧縮パッケージをダウンロードして解凍します
  • いくつかのオプションをカスタマイズする必要がある場合は、Modules/ を変更します。 Setup
  • Execute./configurescript
  • make
  • make install
  • # #(2) ウィンドウ システム

http://www.python.org/download/
  • ダウンロード リストで Windows プラットフォーム インストール パッケージを選択します
  • 公式 Web サイトからのダウンロードは非常に遅いです。遅いので、Python の各バージョンのインストール パッケージをダウンロードして整理しました。直接クリックして QQ グループに参加できます。
  • 963624318 グループ フォルダー
    Python 関連インストール パッケージ Python データ分析の実践的な概要 データ分析 からダウンロードするだけです。 ダウンロード後、ダウンロード パッケージをダブルクリックして Python インストール ウィザードを開始します。インストールは非常に簡単です。デフォルト設定を使用し、インストールが完了するまで
  • Next
  • をクリックするだけです。
  • (3) Mac システム
には Python 2.7 が付属しています。

brew install python
を実行して新しいバージョンをインストールできます。

3. 環境変数の設定

Windows システムでは環境変数を設定する必要があります。

Python のインストール時に環境変数を追加することを選択しなかった場合は、環境変数を手動で追加する必要があります。Python をインストールするパス

XXX\PythonXXX

および XXX\ を追加する必要がありますPythonXXX\Scripts 環境変数に

コマンドライン追加
  • path=%path%;XXX\PythonXXX
    と ## を実行する方法があります。 CMD path%;XXX\PythonXXX\Scripts のそれぞれ #path=% で十分です。 システム設定に を追加します。コンピューターを右クリック → プロパティ → システムの詳細設定 → システムのプロパティ → 環境変数 → パスをダブルクリック →
  • XXX\PythonXXX
  • と # を追加します##XXX\PythonXXX\ Scripts
    インストール パスは次のとおりです:
    最後に [確認] をクリックして終了します。 Python データ分析の実践的な概要 データ分析
4. pip のインストール

pip は Python のパッケージ インストールおよび管理ツールです。Python のインストール時に pip のインストールを選択できます。Python 2 >=2.7 では.9 または Python 3 >=3.4。 pip がインストールされていない場合は、次のコマンドを使用してインストールできます:

Linux または Mac

pip install -U pip

  • Windows( cmd 入力) python -m pip install -U pip

  • 5. 統合開発環境の選択
#PyCharm などを含む多くの Python エディタがあります。ここでは PyCharm を選択します:

PyCharm は JetBrains によって作成された Python IDE で、Mac OS、Windows、および Linux システムをサポートします。 デバッグ

、構文ハイライト、プロジェクト管理、

コードジャンプ

スマートプロンプト、オートコンプリート、単体テスト、バージョン管理、その他の機能が含まれます。 https://www.jetbrains.com/pycharm/download/ で、適切なバージョンを選択してダウンロードしてインストールできます。 3. Anaconda の紹介とインストール

1.Anaconda とは

Anaconda は使用できるツールです

科学技術コンピューティングの Python ディストリビューション は、Linux、Mac、および Windows システムをサポートしており、一般的に使用される科学コンピューティング ライブラリが組み込まれています。 公式 Python の 2 つの主要な問題点を解決します:

(1) パッケージ管理機能を提供し、Windows プラットフォームへのサードパーティ パッケージのインストールが頻繁に失敗するシナリオを解決します;

(2) 環境管理機能を提供します。この関数は、Python の複数のバージョンの共存と切り替えの問題を解決する virtualenv に似ています。
2. Anaconda をダウンロードしてインストールします

公式 Web サイト https://www.anaconda.com/products/inpidual からインストール パッケージを直接ダウンロードし、ダウンロードを選択します

Python3 .8Personal Edition

のインストールパッケージで十分ですが、公式サイトからのダウンロード速度が遅いため、Python 3.8 に対応した Anaconda のインストールパッケージをダウンロードして整理しました。直接クリックして QQ グループを追加できます

963624318 グループ フォルダー Python 関連インストール パッケージ からダウンロードするだけです。 ダウンロード後、直接インストールします。クリックプロセス中に、環境変数を追加するためのプロンプトが表示されることに注意してください。次のように確認する必要があります。

最後に [次へ] をクリックします。インストールが完了したら、Win キー (Windows システムの場合) をクリックして、以下に示すように最近追加されたアプリケーション リスト A を表示します。
この時点で、以下に示すように、启动栏 最近添加Anaconda Navigator
をクリックできます。 启动栏 A

環境が Python 3.8.3 であり、基本的なAnaconda によって作成された環境は、base という名前で、デフォルトの環境でもあり、デフォルトでインストールされているライブラリも確認できます。
Anaconda コマンド ライン ツール Anaconda NavigatorAnaconda Powershell プロンプト

を開き、

python -V

と入力すると、

Python 3.8.3 も出力されます。 conda create --name py27 python=2.7などのコマンドを使用して新しい conda 環境を作成することもできます。実行後、py27 という名前の Python バージョン 2.7 の conda 環境が作成されます。作成した。

環境をアクティブにしてコマンド

conda activate py27 を実行し、コマンド conda deactivate

を非アクティブにします。

コマンド ラインで conda list を実行すると、次のようにインストールされているライブラリを表示できます:

# packages in environment at E:\Anaconda3:
#
# Name                    Version                   Build  Channel
_ipyw_jlab_nb_ext_conf    0.1.0                    py38_0
alabaster                 0.7.12                     py_0
anaconda                  2020.07                  py38_0
anaconda-client           1.7.2                    py38_0
anaconda-navigator        1.9.12                   py38_0
...
zlib                      1.2.11               h62dcd97_4
zope                      1.0                      py38_1
zope.event                4.4                      py38_0
zope.interface            4.7.1            py38he774522_0
zstd                      1.4.5                ha9fde0e_0

3. conda ツールとパッケージ管理の概要

conda は、Anaconda の

パッケージ管理環境管理

のためのツールです。その機能は、pip と virtualenv の組み合わせに似ています。Conda の環境管理は次のとおりです。基本的には virtualenv と同様の操作です。

インストールが正常に完了すると、デフォルトで conda が環境変数に追加されるため、コマンド ライン ウィンドウで conda コマンドを直接実行できます。 一般的な conda コマンドとその意味は次のとおりです:

コマンドの意味

conda コマンドconda –hヘルプを表示python3.6 バージョンに基づいて python36 という名前の環境を作成しますconda create - -name python36 python=3.6この環境をアクティブ化しますpython36 (Windows) をアクティブ化し、ソース python36 (linux/mac) をアクティブ化しますPython のバージョンを表示python -V現在の環境を終了python36 を非アクティブ化 環境を削除しますconda delete -n py27 --allインストールされているすべての環境を表示しますconda info -e
一般的な conda パッケージ管理コマンドは次のとおりです。

パッケージ管理コマンドの意味

パッケージ管理コマンドmatplotlib のインストールconda install matplotlibインストールされているパッケージの表示conda リストパッケージの更新conda 更新 matplotlibパッケージの削除conda 削除 matplotlib##conda では、、conda 自体もパッケージと見なすことができ、Python 環境もパッケージと見なすことができ、anaconda はこれはパッケージであるともみなされるため、更新をサポートする通常のサードパーティ パッケージに加えて、これら 3 つのパッケージは次のコマンドもサポートします:
何でもパッケージ、すべてがパッケージ

#Operation

コマンドconda update conda
conda 自体を更新します
anaconda アプリケーションを更新します conda update anaconda
現在の Python 環境が 3.8.1 で最新バージョンが 3.8.2 であると仮定して、Python を更新すると、3.8.2 にアップグレードされます conda 更新 Python

四、Jupyter Notebook

1.Jupyter Notebook基本介绍

Jupyter Notebook(此前被称为IPython notebook)是一个交互式笔记本,支持运行40多种编程语言。

在开始使用notebook之前,需要先安装该库:
(1)在命令行中执行pip install jupyter来安装;
(2)安装Anaconda后自带Jupyter Notebook。

在命令行中执行jupyter notebook,就会在当前目录下启动Jupyter服务并使用默认浏览器打开页面,还可以复制链接到其他浏览器中打开,如下:
jupyter 界面

可以看到,notebook界面由以下部分组成:
(1)notebook名称;
(2)主工具栏,提供了保存、导出、重载notebook,以及重启内核等选项;
(3)notebook主要区域,包含了notebook的内容编辑区。

2.Jupyter Notebook的使用

在Jupyter页面下方的主要区域,由被称为单元格的部分组成。每个notebook由多个单元格构成,而每个单元格又可以有不同的用途。
上图中看到的是一个代码单元格(code cell),以[ ]开头,在这种类型的单元格中,可以输入任意代码并执行。
例如,输入1 + 2并按下Shift + Enter,单元格中的代码就会被计算,光标也会被移动到一个新的单元格中。

如果想新建一个notebook,只需要点击New,选择希望启动的notebook类型即可。

简单使用示意如下:
python da jupyter simple

可以看到,notebook可以修改之前的单元格,对其重新计算,这样就可以更新整个文档了。如果你不想重新运行整个脚本,只想用不同的参数测试某个程式的话,这个特性显得尤其强大。
不过,也可以重新计算整个notebook,只要点击Cell -> Run all即可。

再测试标题和其他代码如下:
python da jupyter for head

可以看到,在顶部添加了一个notebook的标题,还可以执行for循环等语句。

3.Jupyter中使用Python

Jupyter测试Python变量和数据类型如下:
python da jupyter variable data type

测试Python函数如下:
python da jupyter function

测试Python模块如下:
python da jupyter module package

可以看到,在执行出错时,也会抛出异常。

测试数据读写如下:
python da jupyter data io

数据读写很重要,因为进行数据分析时必须先读取数据,进行数据处理后也要进行保存

4.数据交互案例

加载csv数据,处理数据,保存到MongoDB数据库

有csv文件Python データ分析の実践的な概要 データ分析.csv和Python データ分析の実践的な概要 データ分析.csv,分别是商品数据和用户评分数据,如下:
Python データ分析の実践的な概要 データ分析
Python データ分析の実践的な概要 データ分析

如需获取数据、代码等相关文件进行测试学习,可以直接点击加QQ群 Python データ分析の実践的な概要 データ分析963624318 在群文件夹Python数据分析实战中下载即可。

现在需要通过Python将其读取出来,并将指定的字段保存到MongoDB中,需要在Anaconda中执行命令conda install pymongo安装pymongo。

Python代码如下:

import pymongoclass Product:
    def __init__(self,productId:int ,name, imageUrl, categories, tags):
        self.productId = productId
        self.name = name
        self.imageUrl = imageUrl
        self.categories = categories
        self.tags = tags    def __str__(self) -> str:
        return self.productId +'^' + self.name +'^' + self.imageUrl +'^' + self.categories +'^' + self.tagsclass Rating:
    def __init__(self, userId:int, productId:int, score:float, timestamp:int):
        self.userId = userId
        self.productId = productId
        self.score = score
        self.timestamp = timestamp    def __str__(self) -> str:
        return self.userId +'^' + self.productId +'^' + self.score +'^' + self.timestampif __name__ == '__main__':
    myclient = pymongo.MongoClient("mongodb://127.0.0.1:27017/")
    mydb = myclient["goods-users"]
    # val attr = item.split("\\^")
    # // 转换成Product
    # Product(attr(0).toInt, attr(1).trim, attr(4).trim, attr(5).trim, attr(6).trim)

    Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析']
    with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f:
        item = f.readline()
        while item:
            attr = item.split('^')
            product = Product(int(attr[0]), attr[1].strip(), attr[4].strip(), attr[5].strip(), attr[6].strip())
            Python データ分析の実践的な概要 データ分析.insert_one(product.__dict__)
            # print(product)
            # print(json.dumps(obj=product.__dict__,ensure_ascii=False))
            item = f.readline()

    # val attr = item.split(",")
    # Rating(attr(0).toInt, attr(1).toInt, attr(2).toDouble, attr(3).toInt)
    Python データ分析の実践的な概要 データ分析 = mydb['Python データ分析の実践的な概要 データ分析']
    with open('Python データ分析の実践的な概要 データ分析.csv', 'r',encoding='UTF-8') as f:
        item = f.readline()
        while item:
            attr = item.split(',')
            rating = Rating(int(attr[0]), int(attr[1].strip()), float(attr[2].strip()), int(attr[3].strip()))
            Python データ分析の実践的な概要 データ分析.insert_one(rating.__dict__)
            # print(rating)
            item = f.readline()

在启动MongoDB服务后,运行Python代码,运行完成后,再通过Robo 3T查看数据库如下:
robo 3T

显然,保存数据成功。

使用Jupyter处理商铺数据

待处理的数据是商铺数据,如下:
shop data

包括名称、评论数、价格、地址、评分列表等,其中评论数、价格和评分均不规则、需要进行数据清洗。

如需获取数据、代码等相关文件进行测试学习,可以直接点击加QQ群 Python データ分析の実践的な概要 データ分析963624318 在群文件夹Python数据分析实战中下载即可。

Jupyter中处理如下:
python da jupyter shop data

可以看到,最后得到了经过清洗后的规则数据。

完整Python代码如下:

# 数据读取f = open('商铺数据.csv', 'r', encoding='utf8')for i in f.readlines()[1:15]:
    print(i.split(','))# 创建comment、price、commentlist清洗函数def fcomment(s):
    '''comment清洗函数:用空格分段,选取结果list的第一个为点评数,并且转化为整型'''
    if '条' in s:
        return int(s.split(' ')[0])
    else:
        return '缺失数据'def fprice(s):
    '''price清洗函数:用¥分段,选取结果list的最后一个为人均价格,并且转化为浮点型'''
    if '¥' in s:
        return float(s.split('¥')[-1])
    else:
        return '缺失数据'def fcommentl(s):
    '''commentlist清洗函数:用空格分段,分别清洗出质量、环境及服务数据,并转化为浮点型'''
    if ' ' in s:
        quality = float(s.split('                                ')[0][2:])
        environment = float(s.split('                                ')[1][2:])
        service = float(s.split('                                ')[2][2:-1])
        return [quality, environment, service]
    else:
        return '缺失数据'# 数据处理清洗datalist = []  # 创建空列表f.seek(0)n = 0  # 创建计数变量for i in f.readlines():
    data = i.split(',')
    # print(data)
    classify = data[0]  # 提取分类
    name = data[1]  # 提取店铺名称
    comment_count = fcomment(data[2])  # 提取评论数量
    star = data[3]  # 提取星级
    price = fprice(data[4])  # 提取人均
    address = data[5]  # 提取地址
    quality = fcommentl(data[6])[0]  # 提取质量评分
    env = fcommentl(data[6])[1]  # 提取环境评分
    service = fcommentl(data[6])[2]  # 提取服务评分
    if '缺失数据' not in [comment_count, price, quality]:  # 用于判断是否有数据缺失
        n += 1
        data_re = [['classify', classify],
                   ['name', name],
                   ['comment_count', comment_count],
                   ['star', star],
                   ['price', price],
                   ['address', address],
                   ['quality', quality],
                   ['environment', env],
                   ['service', service]]
        datalist.append(dict(data_re))  # 字典生成,并存入列表datalist
        print('成功加载%i条数据' % n)
    else:
        continueprint(datalist)print('总共加载%i条数据' % n)f.close()

更多编程相关知识,请访问:编程教学!!

以上がPython データ分析の実践的な概要 データ分析の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はcsdn.netで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。