>데이터 베이스 >MySQL 튜토리얼 >내 Hive COUNT(*) 쿼리가 NULL이 아닌 개수 쿼리보다 더 적은 수의 행을 표시하는 이유는 무엇입니까?

내 Hive COUNT(*) 쿼리가 NULL이 아닌 개수 쿼리보다 더 적은 수의 행을 표시하는 이유는 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2025-01-12 07:16:41179검색

Why Does My Hive COUNT(*) Query Show Fewer Rows Than My Non-NULL Count Query?

Hive 쿼리 개수 차이: 비어 있지 않은 개수가 총 개수보다 큼

Hive에서는 행 개수 계산과 관련하여 흥미로운 현상을 관찰했습니다. master_id라는 필드를 포함하는 mytable이라는 테이블이 있다고 가정합니다. 다음 쿼리가 실행되면 검색된 총 행 수는 1,129,563입니다.

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable;</code>

그러나 비어 있지 않은 master_id 값이 있는 행 수를 쿼리하면 개수가 1,134,041로 증가합니다.

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL;</code>

이러한 차이는 기본적으로 WHERE 절이 없는 쿼리가 통계를 사용하여 행 수를 추정할 수 있기 때문에 발생합니다. 이 문제를 해결하려면 hive.compute.query.using.stats 매개변수를 false로 설정하여 통계 추정을 비활성화할 수 있습니다.

또는 ANALYZE TABLE 문을 사용하여 명시적으로 테이블 통계를 계산하거나, INSERT OVERWRITE 작업을 통해 데이터를 대량으로 가져올 때 hive.stats.autogather을 true로 설정하여 통계를 수집할 수 있습니다. 이렇게 하면 정확하고 일관된 쿼리 결과가 보장되고 이와 같은 예상치 못한 결과가 발생하지 않습니다.

위 내용은 내 Hive COUNT(*) 쿼리가 NULL이 아닌 개수 쿼리보다 더 적은 수의 행을 표시하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.