>백엔드 개발 >Golang >golang pdf를 txt로 변환하는 방법

golang pdf를 txt로 변환하는 방법

PHPz
PHPz원래의
2023-04-24 09:10:08964검색

오늘은 특히 Golang의 PDF to TXT 라이브러리를 사용하여 PDF 파일을 텍스트 파일로 변환하는 방법을 공유하고 싶습니다. PDF는 현대 문학에서 매우 일반적인 형식이지만 경우에 따라 텍스트 처리 및 분석을 위해 PDF 형식의 문서를 사용하는 것이 불편할 수 있습니다. 따라서 나중에 사용하려면 텍스트 형식으로 변환해야 합니다. 이를 수행할 수 있는 소프트웨어가 많이 있지만 프로그래밍 환경에서 라이브러리를 사용하여 PDF를 텍스트로 변환하는 것이 더 효율적이고 유연합니다.

먼저 Golang PDF to TXT 라이브러리를 다운로드해야 합니다. 사용할 수 있는 PDF to TXT 라이브러리가 많이 있지만 우리는 가장 인기 있는 몇 가지 라이브러리 중 하나인 go-pdf-to-text를 사용합니다. 이 라이브러리는 사용하기 쉽고 좋은 문서를 가지고 있기 때문에 좋은 선택입니다.

go-pdf-to-text 라이브러리를 설치하는 것은 쉽습니다. 명령줄에서 다음 명령을 실행하기만 하면 됩니다.

go get -u github.com/lu4p/unipdf/extract
go get -u github.com/lu4p/unipdf/model/textencoding
go get -u github.com/lu4p/unipdf/model/textlayout
go get -u github.com/lu4p/unipdf/model/textencoding/simplenc

이 라이브러리를 다운로드한 후 코드를 작성하고 텍스트로 변환할 수 있습니다. 다음은 PDF 파일을 텍스트 형식으로 변환하는 몇 가지 샘플 코드입니다.

package main

import (
    "fmt"
    "os"

    pdf "github.com/lu4p/unipdf/v3/model"
    "github.com/lu4p/unipdf/v3/extractor"
)

func main() {
    f, err := os.Open("example.pdf")
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }
    defer f.Close()

    pdfReader, err := pdf.NewPdfReader(f)
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }

    numPages, err := pdfReader.GetNumPages()
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }

    ex := extractor.New(pdfReader)

    for i := 1; i <= numPages; i++ {
        pageText, err := ex.ExtractPageText(i)
        if err != nil {
            fmt.Println(err)
            os.Exit(1)
        }
        fmt.Println(pageText)
    }
}

이 예에서는 먼저 PDF 파일을 연 다음 pdfReader에 로드합니다. 그런 다음 추출 패키지의 New 함수를 사용하여 텍스트 추출을 위해 페이지 콘텐츠를 메모리에 로드하는 추출기를 만듭니다. 루프를 사용하여 모든 페이지를 반복하고 이를 텍스트로 변환합니다.

이 라이브러리를 사용하는 것은 전혀 어렵지 않다는 것을 알 수 있습니다. PDF 변환을 위해 이 라이브러리를 사용해 보십시오.

go-pdf-to-text 라이브러리 외에도 PDF를 TXT로 변환하는 데 사용할 수 있는 다른 라이브러리가 있습니다. 그러나 각 라이브러리에는 일부 측면에서 서로 다른 장점과 한계가 있습니다. 예를 들어, 이러한 라이브러리 중 일부는 더 빠르게 변환할 수 있는 반면 다른 라이브러리는 더 정확한 텍스트 추출을 제공할 수 있습니다. 따라서 프로젝트 요구 사항과 원하는 텍스트 출력의 정확성을 기반으로 라이브러리를 선택할 때 균형을 맞춰야 합니다.

요컨대, PDF to TXT는 특히 PDF의 콘텐츠를 분석하고 처리해야 할 때 매우 유용한 도구가 될 수 있습니다. Golang을 사용하면 PDF 파일을 TXT 형식으로 쉽게 변환하고 여기에서 필요한 텍스트 데이터를 추출할 수 있습니다. 우리가 사용한 go-pdf-to-text 라이브러리는 훌륭하게 작동하지만 프로젝트 요구 사항과 원하는 출력에 따라 이 작업에 다른 라이브러리를 사용할 수 있습니다.

위 내용은 golang pdf를 txt로 변환하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.