Rumah >Java >javaTutorial >Bagaimanakah Saya Boleh Mengira Baris dengan Cekap dalam Fail Data Java Besar?

Bagaimanakah Saya Boleh Mengira Baris dengan Cekap dalam Fail Data Java Besar?

Patricia Arquette
Patricia Arquetteasal
2024-12-09 09:18:07332semak imbas

How Can I Efficiently Count Lines in Large Java Data Files?

Mengira Baris dalam Fail Data Besar di Java

Mengira bilangan baris dalam fail data besar boleh menjadi satu tugas yang sukar. Walaupun melelaran melalui fail baris demi baris ialah pendekatan biasa, ia memakan masa dan tidak cekap.

Alternatif yang lebih cekap ialah menggunakan kaedah yang dioptimumkan berikut:

public static int countLines(String filename) throws IOException {
    InputStream is = new BufferedInputStream(new FileInputStream(filename));
    try {
        byte[] c = new byte[1024];
        int count = 0;
        int readChars = 0;
        boolean empty = true;
        while ((readChars = is.read(c)) != -1) {
            empty = false;
            for (int i = 0; i < readChars; ++i) {
                if (c[i] == '\n') {
                    ++count;
                }
            }
        }
        return (count == 0 && !empty) ? 1 : count;
    } finally {
        is.close();
    }
}

public static int countLinesNew(String filename) throws IOException {
    InputStream is = new BufferedInputStream(new FileInputStream(filename));
    try {
        byte[] c = new byte[1024];

        int readChars = is.read(c);
        if (readChars == -1) {
            // bail out if nothing to read
            return 0;
        }

        // make it easy for the optimizer to tune this loop
        int count = 0;
        while (readChars == 1024) {
            for (int i = 0; i < 1024;) {
                if (c[i++] == '\n') {
                    ++count;
                }
            }
            readChars = is.read(c);
        }

        // count remaining characters
        while (readChars != -1) {
            for (int i = 0; i < readChars; ++i) {
                if (c[i] == '\n') {
                    ++count;
                }
            }
            readChars = is.read(c);
        }

        return count == 0 ? 1 : count;
    } finally {
        is.close();
    }
}

Kaedah ini membaca fail dalam ketulan 1024 bait, dengan ketara mengurangkan bilangan akses sistem fail berbanding membaca baris demi baris. Ia mengekalkan kiraan baris yang ditemui semasa setiap bahagian dan mengumpul jumlah kiraan.

Tanda aras telah menunjukkan bahawa kaedah ini jauh lebih pantas daripada menggunakan LineNumberReader. Untuk fail teks 1.3GB, kaedah yang dioptimumkan mengambil masa kira-kira 0.35 saat untuk mengira baris, manakala LineNumberReader mengambil masa kira-kira 2.40 saat.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengira Baris dengan Cekap dalam Fail Data Java Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn