그룹화 속도를 향상시키는 방법

Question

30억 개가 넘는 행이 포함된 큰 테이블이 있는데 이제 쿼리를 실행하는 데 3일이 걸립니다. 이것은 내 쿼리입니다: insertinto주파수words(word,주파수,filename)selectword,count(*)as주파수,max(filename)fromallwordstempgroupbyword 기본적으로 내 쿼리는 allwordstemp 테이블에서 단어별로 그룹화하는 것이며 언제인지 알고 싶습니다.

P粉741678385 · Answer

필터가 단어나 파일 이름이 아닌 빈도를 기반으로 하는 것 같습니다. 그래서 먼저 모든 단어를 빈도별로 색인화하겠습니다.

그런 다음 빈도가 정수라고 가정하면 다음과 같이 WHERE 절을 추가합니다.

으아악

위 내용은 다양한 파일 이름에서 한 번만 나타나는 모든 단어 목록을 제공합니다.

이 정보가 도움이 되기를 바라며 최선을 다하겠습니다!

그룹화 속도를 향상시키는 방법

모든 응답(1)나는 대답할 것이다