특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame 생성
문제 설명:
목표는 다음 구조를 가진 텍스트 파일에서 Pandas DataFrame을 만드는 것입니다.
Alabama[edit] Auburn (Auburn University)[1] Florence (University of North Alabama) Jacksonville (Jacksonville State University)[2] Livingston (University of West Alabama)[2] Montevallo (University of Montevallo)[2] Troy (Troy University)[2] Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4] Tuskegee (Tuskegee University)[5] Alaska[edit] Fairbanks (University of Alaska Fairbanks)[2] Arizona[edit] Flagstaff (Northern Arizona University)[6] Tempe (Arizona State University) Tucson (University of Arizona) Arkansas[edit]
여기서 "[edit]"가 있는 행은 주를 나타내고 "[number]"가 있는 행은 지역을 나타냅니다. DataFrame은 이러한 패턴을 기반으로 데이터를 분할하고 각 지역 이름에 대해 주 이름을 반복해야 합니다.
해결책:
이를 달성하려면 아래 단계를 따를 수 있습니다. :
df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])
df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())
df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')
df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True) print (df)
출력 예:
출력 DataFrame은 다음과 같습니다.
State Region Name 0 Alabama Auburn 1 Alabama Florence 2 Alabama Jacksonville 3 Alabama Livingston 4 Alabama Montevallo 5 Alabama Troy 6 Alabama Tuscaloosa 7 Alabama Tuskegee 8 Alaska Fairbanks 9 Arizona Flagstaff 10 Arizona Tempe 11 Arizona Tucson
위 내용은 상태는 \"[edit]\"로 표시되고 지역은 \"[number]\"로 표시되는 특정 패턴이 있는 텍스트 파일에서 Pandas DataFrame을 어떻게 생성합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!