La base de données en texte intégral comprend principalement des livres électroniques, des magazines électroniques, des journaux électroniques, etc. La base de données en texte intégral élimine le besoin d'indexation des documents et d'autres étapes de traitement, et réduit les facteurs humains dans l'organisation des données. Par conséquent, les données sont mises à jour rapidement et la précision des résultats de recherche est en même temps plus élevée, puisque le texte intégral est plus précis. directement fourni, cela évite d'avoir à trouver le texte original, il est donc profondément apprécié par les utilisateurs.
Le système d'exploitation pour ce tutoriel : système Windows 11, ordinateur Dell G3.
La base de données en texte intégral est une base de données qui contient le texte intégral de documents originaux, principalement des articles de revues, des documents de conférence, des publications gouvernementales, des rapports de recherche, des dispositions et des affaires juridiques, des informations commerciales, etc. La base de données en texte intégral élimine le besoin d'indexation des documents et d'autres étapes de traitement, et réduit les facteurs humains dans l'organisation des données. Par conséquent, les données sont mises à jour rapidement et la précision des résultats de recherche est en même temps plus élevée, puisque le texte intégral est plus précis. directement fourni, cela évite d'avoir à trouver le texte original, il est donc profondément apprécié par les utilisateurs. Le nombre de bases de données en texte intégral a grimpé en flèche. Actuellement, le rapport entre le nombre de bases de données en texte intégral et celui des bases de données bibliographiques a atteint environ 2 : 1, et ce nombre continue d'augmenter.
La définition de la structure de la base de données, le contenu des données de la base de données en texte intégral, les statistiques d'utilisation et les ajustements du vocabulaire et de l'espace de stockage utilisés dans le système de texte intégral.
Classification
Selon la forme de présentation du contenu de l'information dans la base de données en texte intégral, les types de bases de données en texte intégral comprennent principalement les bases de données électroniques livres, magazines électroniques et livres électroniques, etc.
La version électronique des livres est généralement publiée en parallèle de la version imprimée, et possède des fonctions telles que la navigation, la récupération, le tri, l'impression et la copie. Les livres électroniques sont accessibles en ligne, ce qui améliore l'efficacité de la transmission des documents et la disponibilité des documents. L’émergence des livres électroniques va améliorer (changer) les habitudes de lecture des gens.
Les magazines électroniques peuvent combiner la récupération de documents avec l'acquisition de documents originaux. La base de données en texte intégral contient plusieurs revues, permettant la récupération de texte intégral dans plusieurs disciplines et revues, élargissant ainsi la portée des sources pour obtenir des informations. Le Chinese Academic Journals Network (http://WWW.cnki.net) est construit par Chinese Academic Journals (version CD)
Electronic Magazine et Tsinghua Tongfang CD-ROM Co., Ltd., comprenant la base de données en texte intégral des revues chinoises. Elle contient plus de 3 000 revues et plus de 6 millions de documents.
Les journaux électroniques stockent et gèrent des articles de journaux et des reportages via des bases de données, et peuvent être recherchés et interrogés en ligne. La base de données en texte intégral du New York Times, Information Bank, a été pionnière de ce type de base de données et a ensuite été intégrée au système NEXIS du Mead Data Center. La version sur CD-ROM de la « Base de données en texte intégral du Quotidien du Peuple » publiée conjointement par le « Quotidien du Peuple » de Chine et Beijing Jinpan Electronics Co., Ltd., la version sur CD-ROM de la « Base de données en texte intégral du Quotidien de la Chine » publiée conjointement par le « China Daily » et la China Science and Technology Data Import and Export Corporation, il s'agit de la première base de données en texte intégral de journaux d'information en Chine.
Structure
Les bases de données en texte intégral ont diverses formes structurelles.
Une structure est que la base de données en texte intégral est composée de plusieurs bibliothèques, chaque bibliothèque est divisée en plusieurs documents, le document est composé de plusieurs supports d'informations et le support d'informations est subdivisé en plusieurs fragments. Les fragments font référence aux éléments naturels qui constituent le texte, équivalent au champ. LEXIS dans le data center de Mead aux États-Unis a cette structure. Il s'agit d'un système piloté par menus. Le menu de premier niveau affiche le répertoire de la bibliothèque et le menu de deuxième niveau affiche le répertoire des documents. Une fois la bibliothèque et le document sélectionnés, le système commence à recevoir des questions.
Une autre structure est que la base de données en texte intégral est composée de plusieurs bases de données. Il n'y a pas de structure au niveau du document sous la base de données, mais le support d'informations est directement divisé en champs pour le stockage. WESTLAW de la Western Publishing Company des États-Unis a cette structure. Ce système comporte des champs judiciaires, des champs judiciaires, etc., et peut fournir une variété de méthodes de recherche. La structure de la base de données en texte intégral est similaire à celle de la base de données bibliographique. Son document principal est un fichier texte organisé dans un format séquentiel, et le fichier inversé est un fichier d'index correspondant aux champs consultables de la notice porteuse d'informations. Le format de bande enregistré dans une base de données en texte intégral est généralement divisé en parties d'en-tête, de répertoire et de données. Dans les bases de données en texte intégral existantes, différentes méthodes de mise en œuvre sont adoptées en fonction des différentes situations des supports d'informations de domaine, des utilisateurs de la base de données et des équipements.
Caractéristiques
Par rapport à d'autres bases de données, la base de données en texte intégral possède de nombreuses fonctionnalités, les principales performances sont les suivantes.
① Contient l'originalité de l'information. Les informations contenues dans la base de données sont essentiellement des documents originaux non traités, elles sont donc objectives.
② Rigueur de la recherche d'informations. N'importe quel mot, phrase ou caractère peut être recherché et vous pouvez également voir des informations marginales.
③Récupérer le naturel du langage. La récupération du langage naturel peut être utilisée, ainsi que la récupération booléenne et géographique, impliquant ainsi la compréhension du langage naturel.
④La structure des données est fondamentalement non structurée, à l'exception de certaines données normalisées, une grande quantité de texte n'est pas structurée et n'est pas pratique pour le traitement d'une base de données relationnelle.
⑤Les systèmes de bases de données en texte intégral professionnels utilisent généralement la technologie de « segmentation automatique des mots »
⑥Une bonne base de données en texte intégral dispose également d'une base de connaissances, qui peut avoir des capacités de raisonnement et de récupération associative .
⑦ Il est fondamentalement fermé, les données n'ont pas besoin d'être mises à jour et ont une plus grande stabilité.
⑧Les bases de données en texte intégral occupent généralement un très grand espace de stockage et nécessitent une surcharge système importante. Comment améliorer la vitesse de récupération est un gros problème.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!