ホームページ  >  記事  >  バックエンド開発  >  Ubuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法

Ubuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法

不言
不言オリジナル
2018-05-08 14:18:123132ブラウズ

この記事では主に、Ubuntu で Python を使用して doc および docx ドキュメントを読み取る方法を紹介します。これは、必要な友人に参照してもらえるように共有します

使用するパッケージは python-docx です

1. python-docx パッケージをインストールします

sudo pip install python-docx

2. python-docx パッケージを使用してデータを読み取ります

このパッケージはできません処理済み ドキュメント ドキュメントの場合、アンチワード ツールを使用してドキュメント ドキュメントのコンテンツを読み取る必要があります。

ドキュメントドキュメントを読む

1. Web サイトにアクセスして、antiword をダウンロードします。

2. ダウンロード後、解凍し、解凍したフォルダーで make および make install コマンドを実行します。


3. ドキュメント文書の内容を読み取るためにアンチワードを使用します


#encoding:utf8 
import docx 
doc = docx.Document('test.docx') 
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs]) 
#print(docText)

関連する推奨事項:

Python による dat ファイルのバッチ処理と科学的計算方法に基づく

Python を使用した処理の例MS Word

以上がUbuntu で Python を使用して doc および docx ドキュメントのコンテンツを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。