>Java >java지도 시간 >대용량 Java 데이터 파일의 줄 수를 효율적으로 계산하려면 어떻게 해야 합니까?

대용량 Java 데이터 파일의 줄 수를 효율적으로 계산하려면 어떻게 해야 합니까?

Patricia Arquette
Patricia Arquette원래의
2024-12-09 09:18:07334검색

How Can I Efficiently Count Lines in Large Java Data Files?

Java에서 대용량 데이터 파일의 줄 수 계산

대량 데이터 파일의 줄 수를 계산하는 것은 어려운 작업일 수 있습니다. 파일을 한 줄씩 반복하는 것이 일반적인 접근 방식이지만 시간이 많이 걸리고 비효율적입니다.

더 효율적인 대안은 다음과 같은 최적화된 방법을 활용하는 것입니다.

public static int countLines(String filename) throws IOException {
    InputStream is = new BufferedInputStream(new FileInputStream(filename));
    try {
        byte[] c = new byte[1024];
        int count = 0;
        int readChars = 0;
        boolean empty = true;
        while ((readChars = is.read(c)) != -1) {
            empty = false;
            for (int i = 0; i < readChars; ++i) {
                if (c[i] == '\n') {
                    ++count;
                }
            }
        }
        return (count == 0 && !empty) ? 1 : count;
    } finally {
        is.close();
    }
}

public static int countLinesNew(String filename) throws IOException {
    InputStream is = new BufferedInputStream(new FileInputStream(filename));
    try {
        byte[] c = new byte[1024];

        int readChars = is.read(c);
        if (readChars == -1) {
            // bail out if nothing to read
            return 0;
        }

        // make it easy for the optimizer to tune this loop
        int count = 0;
        while (readChars == 1024) {
            for (int i = 0; i < 1024;) {
                if (c[i++] == '\n') {
                    ++count;
                }
            }
            readChars = is.read(c);
        }

        // count remaining characters
        while (readChars != -1) {
            for (int i = 0; i < readChars; ++i) {
                if (c[i] == '\n') {
                    ++count;
                }
            }
            readChars = is.read(c);
        }

        return count == 0 ? 1 : count;
    } finally {
        is.close();
    }
}

이 방법은 파일을 1024바이트 단위로 읽으므로 한 줄씩 읽는 것에 비해 파일 시스템 액세스 횟수가 크게 줄어듭니다. 각 청크에서 발생하는 줄 수를 유지하고 총 개수를 누적합니다.

벤치마크에 따르면 이 방법은 LineNumberReader를 사용하는 것보다 훨씬 빠릅니다. 1.3GB 텍스트 파일의 경우 최적화된 방법은 줄 수를 계산하는 데 약 0.35초가 걸리는 반면, LineNumberReader는 약 2.40초가 걸립니다.

위 내용은 대용량 Java 데이터 파일의 줄 수를 효율적으로 계산하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.