고유한 열 값을 기반으로 행 검색
데이터 조작 시나리오에서는 특정 열 내의 고유한 값을 기반으로 행을 추출하는 것이 필수적입니다. . 이 기사에서는 데이터 조작 및 분석에 널리 사용되는 Python 라이브러리인 Pandas를 사용하여 이를 달성하는 방법을 보여줍니다.
문제 설명
COL1 및 COL1이라는 두 개의 열이 있는 데이터 프레임을 생각해 보세요. COL2. 작업은 COL2의 값이 고유한 행을 검색하는 것입니다. 예를 들어 아래 데이터 프레임이 주어지면:
COL1 | COL2 |
---|---|
a.com | 22 |
b.com | 45 |
c.com | 34 |
e.com | 45 |
f.com | 56 |
g.com | 22 |
h.com | 45 |
원하는 출력은 COL2의 고유 값을 기반으로 행을 얻는 것입니다.
COL1 | COL2 |
---|---|
a.com | 22 |
b.com | 45 |
c.com | 34 |
f.com | 56 |
해결책: Pandas 사용' drop_duplicates() 메서드
Pandas 라이브러리는 이 작업을 수행하기 위해 drop_duplicates()라는 편리한 메서드를 제공합니다. 인수에 열 이름을 지정하면 중복을 확인하고 요구 사항에 따라 특정 행을 제거하거나 유지할 수 있습니다.
예를 들어 COL2 값을 기반으로 모든 중복 행을 제거하려면 다음 코드를 사용합니다.
<code class="python">import pandas as pd df = pd.DataFrame({'COL1': ['a.com', 'b.com', 'c.com', 'e.com', 'f.com', 'g.com', 'h.com'], 'COL2': [22, 45, 34, 45, 56, 22, 45]}) df = df.drop_duplicates('COL2') # Displaying the result print(df)</code>
이렇게 하면 COL2에 고유한 값이 있는 데이터 프레임이 출력됩니다.
COL1 | COL2 |
---|---|
a.com | 22 |
b.com | 45 |
c.com | 34 |
f.com | 56 |
또한 유지할 중복 행을 제어하기 위해 keep 매개변수를 지정할 수 있습니다. 기본적으로 첫 번째 항목('first')을 유지하지만 마지막 항목('last')을 유지하거나 모든 중복 항목을 제거('False')할 수도 있습니다.
<code class="python"># Keep first occurrence df = df.drop_duplicates('COL2', keep='first') # Keep last occurrence df = df.drop_duplicates('COL2', keep='last') # Remove all duplicates df = df.drop_duplicates('COL2', keep=False)</code>
위 내용은 Pandas에서 고유한 열 값을 기반으로 행을 검색하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!