집 >백엔드 개발 >파이썬 튜토리얼 >상태는 \'[edit]\'로 표시되고 지역은 \'[number]\'로 표시되는 특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame을 어떻게 생성합니까?

상태는 \'[edit]\'로 표시되고 지역은 \'[number]\'로 표시되는 특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame을 어떻게 생성합니까?

Susan Sarandon원래의: 2024-11-02 07:03:29323검색

How do you create a Pandas DataFrame from a text file with specific patterns, where states are indicated by

특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame 생성

문제 설명:

목표는 다음 구조를 가진 텍스트 파일에서 Pandas DataFrame을 만드는 것입니다.

Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]
Fairbanks (University of Alaska Fairbanks)[2]
Arizona[edit]
Flagstaff (Northern Arizona University)[6]
Tempe (Arizona State University)
Tucson (University of Arizona)
Arkansas[edit]

여기서 "[edit]"가 있는 행은 주를 나타내고 "[number]"가 있는 행은 지역을 나타냅니다. DataFrame은 이러한 패턴을 기반으로 데이터를 분할하고 각 지역 이름에 대해 주 이름을 반복해야 합니다.

해결책:

이를 달성하려면 아래 단계를 따를 수 있습니다. :

Pandas를 사용하여 세미콜론을 구분 기호로 사용하고 "Region Name"이라는 열을 생성하여 텍스트 파일을 DataFrame으로 읽습니다.

df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])

"[edit]"가 포함된 행에서 주 이름을 추출하려면 문자열 추출 방법을 사용하여 "State"라는 새 열을 삽입합니다. 그런 다음 정방향 채우기(ffill)를 사용하여 누락된 값을 채웁니다.

df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())

지역 이름 특성을 제거하려면 "지역 이름" 열에서 괄호로 묶인 텍스트를 빈 문자열로 바꿉니다. :

df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')

부울 인덱싱과 str.contains 함수를 사용하여 "[edit]"가 포함된 행을 제거합니다. 결과 DataFrame에는 원하는 데이터가 포함됩니다.

df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True)
print (df)

출력 예:

출력 DataFrame은 다음과 같습니다.

      State   Region Name
0   Alabama        Auburn
1   Alabama      Florence
2   Alabama  Jacksonville
3   Alabama    Livingston
4   Alabama    Montevallo
5   Alabama          Troy
6   Alabama    Tuscaloosa
7   Alabama      Tuskegee
8    Alaska     Fairbanks
9   Arizona     Flagstaff
10  Arizona         Tempe
11  Arizona        Tucson

위 내용은 상태는 \'[edit]\'로 표시되고 지역은 \'[number]\'로 표시되는 특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame을 어떻게 생성합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

pandas String Boolean for using number function this column

성명：

이전 기사：Python 함수에서 매개변수 이름을 검색하는 방법은 무엇입니까?다음 기사：Python 함수에서 매개변수 이름을 검색하는 방법은 무엇입니까?