搜尋
首頁資料庫mysql教程如何在 Pandas 的 SQL 查詢樣式中選擇資料子集?

如何在 Pandas 的 SQL 查询样式中选择数据子集?

簡介

在這篇文章中,我將向您展示如何使用 Pandas 透過 SQL 樣式過濾來執行資料分析。大多數企業資料都儲存在需要 SQL 來檢索和操作的資料庫中。例如,像 Oracle、IBM、Microsoft 這樣的公司擁有自己的資料庫和自己的 SQL 實作。

資料科學家必須在其職業生涯的某個階段處理 SQL,因為資料並不總是儲存在CSV 檔案。我個人更喜歡使用 Oracle,因為我公司的大部分資料都儲存在 Oracle 中。

場景 – 1 假設我們有一個任務,從我們的電影中尋找所有電影具有以下條件的資料集。

  • 電影的語言應該是英語(en)或西班牙語(es)。
  • 電影的受歡迎程度必須介於 500 到 1000 之間。
  • 電影的狀態必須已發布。
  • 投票數必須大於 5000。對於上述場景,SQL 語句類似於如下。
SELECT
FROM WHERE
title AS movie_title
,original_language AS movie_language
,popularityAS movie_popularity
,statusAS movie_status
,vote_count AS movie_vote_count movies_data
original_languageIN ('en', 'es')

AND status=('Released')
AND popularitybetween 500 AND 1000
AND vote_count > 5000;

現在你已經看到了滿足需求的SQL語句,讓我們使用pandas一步一步地進行操作。我將向你展示兩種方法。

方法1:布林索引

1. 將movies_data資料集載入到DataFrame中。

import pandas as pd movies = pd.read_csv("https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv")

為每個條件分配一個變數。

languages = [ "en" , "es" ] condition_on_languages = movies . original_language . isin ( languages )
condition_on_status = movies . status == "Released"
condition_on_popularity = movies . popularity . between ( 500 , 1000 )
condition_on_votecount = movies . vote_count > 5000

3.將所有條件(布林數組)組合在一起。

final_conditions = ( condition_on_languages & condition_on_status & condition_on_popularity & condition_on_votecount )
columns = [ "title" , "original_language" , "status" , "popularity" , "vote_count" ]
# clubbing all together movies . loc [ final_conditions , columns ]

zh10867

#original_language

#狀態

受歡迎程度

vote_count
##vote_count

##95星際

已發布

724.247784

##788死侍

zh

已發布

#514.569956

#10995

#方法2:- .query()方法。 .query()方法是SQL where子句樣式過濾資料的方法。條件可以作為字串傳遞給此方法,但是,列名稱不得包含任何空格。

如果列名稱中有空格,請使用 python 替換函數將其替換為底線。

根據我的經驗,我發現 query() 方法在應用於較大的 DataFrame 時比以前的方法更快。

import pandas as pd movies = pd . read_csv ( "https://raw.githubusercontent.com/sasankac/TestDataSet/master/movies_data.csv" )
4.建立查詢字串並執行該方法。 ## 受歡迎程度165000000157336星際724.247784

2014年5月11日

#675120017169.0#關係58000000
請注意,.query 方法不適用於跨越多行的三重引號字串。

final_conditions = (
"original_language in ['en','es']"
"and status == 'Released' "
"and popularity > 500 "
"and popularity < 1000"
"and vote_count > 5000"
) final_result = movies . query ( final_conditions )
final_result

id

original_language

#original_title

發佈日期

’收入

#運行時

#st

95

zh

p>

788

#293660

zh

#死侍

##514.569956

2016年9月2日783112979108.0 ##關係

#157336

#還有更多,通常在我的編碼中,我有多個值要檢查我的“in”子句。所以上面的語法並不理想。可以使用 at 符號 (@) 來引用 Python 變數。

您也可以以程式設計方式將值建立為 Python 列表,並將它們與 (@) 一起使用。
movie_languages = [ &#39;en&#39; , &#39;es&#39; ]
final_conditions = (
"original_language in @movie_languages "
"and status == &#39;Released&#39; "
"and popularity > 500 "
"and popularity < 1000"
"and vote_count > 5000" )
final_result = movies . query ( final_conditions )
final_result

##id

original_language

#original_title

受歡迎程度

發布日期

收入

#運行時

st

95

165000000

zh

#星際

p>##724.247784

#2014年5月11日

675120017

169.0

# #關係

###788################58000000################### ##293660############zh#############死侍############514.569956######## #####2016年9月2日############783112979############108.0#############關係#####################

以上是如何在 Pandas 的 SQL 查詢樣式中選擇資料子集?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:tutorialspoint。如有侵權,請聯絡admin@php.cn刪除
減少在Docker中使用MySQL內存的使用減少在Docker中使用MySQL內存的使用Mar 04, 2025 pm 03:52 PM

本文探討了Docker中的優化MySQL內存使用量。 它討論了監視技術(Docker統計,性能架構,外部工具)和配置策略。 其中包括Docker內存限制,交換和cgroups

mysql無法打開共享庫怎麼解決mysql無法打開共享庫怎麼解決Mar 04, 2025 pm 04:01 PM

本文介紹了MySQL的“無法打開共享庫”錯誤。 該問題源於MySQL無法找到必要的共享庫(.SO/.DLL文件)。解決方案涉及通過系統軟件包M驗證庫安裝

如何使用Alter Table語句在MySQL中更改表?如何使用Alter Table語句在MySQL中更改表?Mar 19, 2025 pm 03:51 PM

本文討論了使用MySQL的Alter Table語句修改表,包括添加/刪除列,重命名表/列以及更改列數據類型。

在 Linux 中運行 MySQl(有/沒有帶有 phpmyadmin 的 podman 容器)在 Linux 中運行 MySQl(有/沒有帶有 phpmyadmin 的 podman 容器)Mar 04, 2025 pm 03:54 PM

本文比較使用/不使用PhpMyAdmin的Podman容器直接在Linux上安裝MySQL。 它詳細介紹了每種方法的安裝步驟,強調了Podman在孤立,可移植性和可重複性方面的優勢,還

什麼是 SQLite?全面概述什麼是 SQLite?全面概述Mar 04, 2025 pm 03:55 PM

本文提供了SQLite的全面概述,SQLite是一個獨立的,無服務器的關係數據庫。 它詳細介紹了SQLite的優勢(簡單,可移植性,易用性)和缺點(並發限制,可伸縮性挑戰)。 c

在MacOS上運行多個MySQL版本:逐步指南在MacOS上運行多個MySQL版本:逐步指南Mar 04, 2025 pm 03:49 PM

本指南展示了使用自製在MacOS上安裝和管理多個MySQL版本。 它強調使用自製裝置隔離安裝,以防止衝突。 本文詳細詳細介紹了安裝,起始/停止服務和最佳PRA

如何為MySQL連接配置SSL/TLS加密?如何為MySQL連接配置SSL/TLS加密?Mar 18, 2025 pm 12:01 PM

文章討論了為MySQL配置SSL/TLS加密,包括證書生成和驗證。主要問題是使用自簽名證書的安全含義。[角色計數:159]

哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什麼?哪些流行的MySQL GUI工具(例如MySQL Workbench,PhpMyAdmin)是什麼?Mar 21, 2025 pm 06:28 PM

文章討論了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比較了它們對初學者和高級用戶的功能和適合性。[159個字符]

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具