從具有狀態和區域模式的文字檔案中讀取和調整Pandas DataFrame
從具有特定結構的文字檔案中建立Pandas DataFrame 需要策略性的資料操作。讓我們深入研究這個問題並探索一種解決方案,將提供的文字轉換為所需的 DataFrame。
資料結構
文字檔案遵循分層結構,其中:
- 帶有「[edit]」的行是州名稱。
- 有「[number]」的行是地區名稱。
- 同一州的地區名稱應該重複。
解決方案
1.讀取文字檔案
首先,讀取文字檔案並使用 read_csv() 建立一個 DataFrame。由於沒有特定的分隔符,請指定資料中不存在的自訂分隔符,例如分號:
<code class="python">df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])</code>
2。提取州名稱
使用 str.extract() 方法和正規表示式識別包含州名稱的行,以捕獲最多「[edit]」的州名稱。使用下列值建立一個名為「State」的新欄位:
<code class="python">df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())</code>
3。從區域名稱中刪除括號資訊
從「區域名稱」列中刪除括號及其中包含的任何字元:
<code class="python">df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')</code>
4.刪除州標題行
刪除「區域名稱」欄位中出現「[edit]」的行。使用 str.contains() 建立遮罩:
<code class="python">df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True)</code>
5。最終 DataFrame
此時,您已根據需要取得了包含「州」和「地區名稱」欄位的 DataFrame。
<code class="python">print(df)</code>
擴展解決方案
如果您更喜歡在「區域名稱」列中包含括號內的文本,這裡是修改後的解決方案:
<code class="python">df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill()) df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True) print(df)</code>
這將產生一個包含「州」和「區域名稱」欄位的DataFrame,其中區域名稱包括括號內的文字。
以上是如何從具有包含州和地區模式的特定結構的文本文件創建 Pandas DataFrame?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Linux終端中查看Python版本時遇到權限問題的解決方法當你在Linux終端中嘗試查看Python的版本時,輸入python...

本文解釋瞭如何使用美麗的湯庫來解析html。 它詳細介紹了常見方法,例如find(),find_all(),select()和get_text(),以用於數據提取,處理不同的HTML結構和錯誤以及替代方案(SEL)

Python的statistics模塊提供強大的數據統計分析功能,幫助我們快速理解數據整體特徵,例如生物統計學和商業分析等領域。無需逐個查看數據點,只需查看均值或方差等統計量,即可發現原始數據中可能被忽略的趨勢和特徵,並更輕鬆、有效地比較大型數據集。 本教程將介紹如何計算平均值和衡量數據集的離散程度。除非另有說明,本模塊中的所有函數都支持使用mean()函數計算平均值,而非簡單的求和平均。 也可使用浮點數。 import random import statistics from fracti

本文比較了Tensorflow和Pytorch的深度學習。 它詳細介紹了所涉及的步驟:數據準備,模型構建,培訓,評估和部署。 框架之間的關鍵差異,特別是關於計算刻度的

本文討論了諸如Numpy,Pandas,Matplotlib,Scikit-Learn,Tensorflow,Tensorflow,Django,Blask和請求等流行的Python庫,並詳細介紹了它們在科學計算,數據分析,可視化,機器學習,網絡開發和H中的用途

本文指導Python開發人員構建命令行界面(CLIS)。 它使用Typer,Click和ArgParse等庫詳細介紹,強調輸入/輸出處理,並促進用戶友好的設計模式,以提高CLI可用性。

在使用Python的pandas庫時,如何在兩個結構不同的DataFrame之間進行整列複製是一個常見的問題。假設我們有兩個Dat...

文章討論了虛擬環境在Python中的作用,重點是管理項目依賴性並避免衝突。它詳細介紹了他們在改善項目管理和減少依賴問題方面的創建,激活和利益。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版