순차 행을 사용하여 Pandas Dataframe 생성
데이터 분석 작업에서는 Pandas DataFrame을 생성하고 반복적으로 추가해야 하는 경우가 많습니다. 그것에 행. 이를 달성하기 위해 여러 가지 방법을 사용할 수 있으며 각각 고유한 장점이 있습니다.
한 가지 방법은 pd.DataFrame() 생성자를 columns 매개변수와 함께 사용하여 원하는 열 이름을 지정하는 것입니다. 빈 DataFrame이 생성된 다음 _set_value() 메서드를 사용하여 행을 하나씩 추가하여 개별 필드 값을 설정할 수 있습니다. 그러나 각 행에 대해 여러 필드를 동시에 추가해야 하는 경우 이 방법은 비효율적입니다.
더 효율적인 솔루션은 df.loc[i] 구문을 사용하는 것입니다. 여기서 i는 행 인덱스를 나타냅니다. df.loc[i]에 값 목록을 할당하면 인덱스 i의 전체 행을 한 단계로 채울 수 있습니다. 이 접근 방식은 _set_value()를 여러 번 호출할 필요가 없기 때문에 대규모 데이터 세트의 경우 훨씬 더 빠릅니다.
이 방법을 시연하려면 다음 코드 조각을 고려하세요.
import numpy as np import pandas as pd df = pd.DataFrame(columns=['lib', 'qty1', 'qty2']) for i in range(5): df.loc[i] = ['name' + str(i)] + list(np.random.randint(10, size=2)) print(df)
이 코드는 세 개의 열('lib', 'qty1', 'qty2')이 있는 빈 DataFrame. 그런 다음 'name' 뒤에 나머지 열에 무작위로 생성된 두 개의 정수 값이 오는 5개의 데이터 행을 생성합니다. 결과는 다음과 같이 지정된 구조와 데이터가 있는 DataFrame입니다.
lib qty1 qty2 0 name0 3 3 1 name1 2 4 2 name2 2 8 3 name3 2 1 4 name4 9 6
위 내용은 순차적 행을 사용하여 Pandas DataFrame을 효율적으로 만드는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!