Maison >Opération et maintenance >exploitation et maintenance Linux >Une introduction de cas sur la façon d'utiliser node.js pour extraire du contenu texte Word et PDF dans le système Linux

Une introduction de cas sur la façon d'utiliser node.js pour extraire du contenu texte Word et PDF dans le système Linux

黄舟
黄舟original
2017-06-18 09:11:011930parcourir

Cet article vous présente principalement l'utilisation de node.js pour extraire du texte Word (doc/docx) et PDF dans le système Linux. L'article fournit un exemple de code détaillé pour votre référence et votre étude. amis qui en ont besoin, veuillez suivre l'éditeur pour y jeter un œil.

Avant-propos

Si vous souhaitez créer un moteur de recherche en texte intégral, vous devez extraire le contenu de documents tels que word/pdf . Pour le pdf, il existe des solutions open source telles que xpdf.

Mais la situation avec les documents Word est plus compliquée.

Extraire le contenu du texte PDF

XPDF est un logiciel gratuit et open source permettant d'afficher des fichiers PDF et de convertir du texte, des images, des fichiers PDF. etc., prend également en charge la version Windows. L'installation sur Debian Linux est très simple :

apt-get install xpdf

Nous utilisons ici uniquement la fonction pdftotext. Vous pouvez consulter l'aide en tapant directement :

root@raspberrypi:/var/www# pdftotext
pdftotext version 0.26.5
Copyright 2005-2014 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdftotext [options] <PDF-file> [<text-file>]
 -f <int>   : first page to convert
 -l <int>   : last page to convert
 -r <fp>   : resolution, in DPI (default is 72)
 -x <int>   : x-coordinate of the crop area top left corner
 -y <int>   : y-coordinate of the crop area top left corner
 -W <int>   : width of crop area in pixels (default is 0)
 -H <int>   : height of crop area in pixels (default is 0)
 -layout   : maintain original physical layout
 -fixed <fp>  : assume fixed-pitch (or tabular) text
 -raw    : keep strings in content stream order
 -htmlmeta   : generate a simple HTML file, including the meta information
 -enc <string>  : output text encoding name
 -listenc   : list available encodings
 -eol <string>  : output end-of-line convention (unix, dos, or mac)
 -nopgbrk   : don&#39;t insert page breaks between pages
 -bbox    : output bounding box for each word and page size to html. Sets -htmlmeta
 -opw <string>  : owner password (for encrypted files)
 -upw <string>  : user password (for encrypted files)
 -q    : don&#39;t print any messages or errors
 -v    : print copyright and version info
 -h    : print usage information
 -help    : print usage information
 --help   : print usage information
 -?    : print usage information

Testez-le :

<.>
root@raspberrypi:/var/www# pdftotext onceai.pdf onceai.txt
root@raspberrypi:/var/www# cat onceai.txt 产品介绍 顽石智能科技(上海)有限公司
....
Utilisez ensuite child_process dans node.js pour appeler directement cette commande. pdftotext affichera le contenu dans un fichier texte, ce qui peut nécessiter quelques opérations supplémentaires. Le code spécifique est omis.

Utilisez antiword pour extraire le contenu de .doc

Nous utilisons ici le logiciel open source antiword pour extraire le contenu des versions précédentes de word2003. L'installation est également très simple :

apt-get install antiword
Afficher l'aide :

root@raspberrypi:/var/www# antiword
 Name: antiword
 Purpose: Display MS-Word files
 Author: (C) 1998-2005 Adri van Os
 Version: 0.37 (21 Oct 2005)
 Status: GNU General Public License
 Usage: antiword [switches] wordfile1 [wordfile2 ...]
 Switches: [-f|-t|-a papersize|-p papersize|-x dtd][-m mapping][-w #][-i #][-Ls]
  -f formatted text output
  -t text output (default)
  -a <paper size name> Adobe PDF output
  -p <paper size name> PostScript output
   paper size like: a4, letter or legal
  -x <dtd> XML output
   like: db (DocBook)
  -m <mapping> character mapping file
  -w <width> in characters of text output
  -i <level> image level (PostScript only)
  -L use landscape mode (PostScript only)
  -r Show removed text
  -s Show hidden (by Word) text


antiword affiche directement le contenu du mot sur la console :


root@raspberrypi:/var/www# antiword spec.doc

SYNC Mobile – Ford APA
Project Number: DFYST
Requirements Specification


Vous pouvez également appeler cette commande en utilisant child_process dans node.js.

Analyser et extraire le contenu de .docx

Pour les documents docx, le gène lui-même est un fichier zip, il vous suffit à node.js le décompresse d'abord, puis analyse le fichier text.docxword

document.xml.

Résumé

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn