ホームページ  >  記事  >  バックエンド開発  >  golang pdfをtxtに変換する方法

golang pdfをtxtに変換する方法

PHPz
PHPzオリジナル
2023-04-24 09:10:08886ブラウズ

今日は、特に Golang の PDF to TXT ライブラリを使用して、PDF ファイルをテキスト ファイルに変換する方法を共有したいと思います。 PDF は現代文学において非常に一般的な形式ですが、場合によっては、テキストの処理や分析には PDF 形式のドキュメントを使用するのが不便な場合があります。したがって、さらに使用するにはテキスト形式に変換する必要があります。これを実行できるソフトウェアはたくさんありますが、ライブラリを使用してプログラミング環境で PDF をテキストに変換する方が効率的かつ柔軟です。

まず、Golang PDF to TXT ライブラリをダウンロードする必要があります。利用可能な PDF to TXT ライブラリは多数ありますが、ここでは数少ない最も人気のあるものの 1 つである go-pdf-to-text を使用します。このライブラリは使いやすく、優れたドキュメントがあるため、良い選択です。

go-pdf-to-text ライブラリのインストールは簡単です。コマンド ラインで次のコマンドを実行するだけです。

go get -u github.com/lu4p/unipdf/extract
go get -u github.com/lu4p/unipdf/model/textencoding
go get -u github.com/lu4p/unipdf/model/textlayout
go get -u github.com/lu4p/unipdf/model/textencoding/simplenc

これらのライブラリをダウンロードした後、コードを記述して、それを次のように変換できます。文章 。 PDF ファイルをテキスト形式に変換するサンプル コードを次に示します。

package main

import (
    "fmt"
    "os"

    pdf "github.com/lu4p/unipdf/v3/model"
    "github.com/lu4p/unipdf/v3/extractor"
)

func main() {
    f, err := os.Open("example.pdf")
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }
    defer f.Close()

    pdfReader, err := pdf.NewPdfReader(f)
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }

    numPages, err := pdfReader.GetNumPages()
    if err != nil {
        fmt.Println(err)
        os.Exit(1)
    }

    ex := extractor.New(pdfReader)

    for i := 1; i <= numPages; i++ {
        pageText, err := ex.ExtractPageText(i)
        if err != nil {
            fmt.Println(err)
            os.Exit(1)
        }
        fmt.Println(pageText)
    }
}

この例では、まず PDF ファイルを開いてから、それを pdfReader に読み込みます。次に、抽出パッケージの New 関数を使用して、テキスト抽出のためにページのコンテンツをメモリにロードするエクストラクターを作成します。ループを使用して、すべてのページをループし、テキストに変換します。

このライブラリの使用はまったく難しくないことがわかります。さあ、このライブラリを PDF 変換に試してみてください。

go-pdf-to-text ライブラリに加えて、PDF を TXT に変換するために使用できるライブラリがいくつかあります。ただし、各ライブラリには、いくつかの側面で異なる利点と制限があります。たとえば、これらのライブラリの中には、より高速に変換できるものもありますが、より正確なテキスト抽出を提供するものもあります。したがって、プロジェクトのニーズと希望するテキスト出力の精度に基づいてライブラリを選択するときは、トレードオフを考慮する必要があります。

つまり、PDF to TXT は、特に PDF 内のコンテンツを分析して処理する必要がある場合に、非常に便利なツールです。 Golang を使用すると、PDF ファイルを TXT 形式に変換し、そこから必要なテキスト データを抽出することが簡単にできます。私たちが使用した go-pdf-to-text ライブラリはうまく機能しますが、プロジェクトのニーズや必要な出力に応じて、このタスクには他のライブラリを使用することもできます。

以上がgolang pdfをtxtに変換する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。