ホームページ  >  記事  >  全文データベースには何が含まれますか?

全文データベースには何が含まれますか?

小老鼠
小老鼠オリジナル
2023-06-09 17:21:434456ブラウズ

全文データベースには主に電子書籍、電子雑誌、電子新聞などが含まれます。全文データベースでは、文書のインデックス作成などの処理が不要となり、データ整理における人的要因が軽減されるため、データの更新が速く、検索結果の精度が高くなります。直接提供されるため、原文を探す手間が省け、ユーザーに根強い人気を誇っています。

全文データベースには何が含まれますか?

このチュートリアルのオペレーティング システム: Windows 11 システム、Dell G3 コンピューター。

フルテキスト データベースは、主に雑誌論文、会議論文、政府出版物、研究報告書、法規定と判例、ビジネス情報などの原文書の全文を含むデータベースです。全文データベースでは、文書のインデックス作成や説明などの処理手順が不要となり、データ整理における人的要因が軽減されるため、データの更新が速くなり、検索結果の精度が高くなります。直接提供されるため、原文を探す手間が省け、ユーザーに根強い人気を誇っています。全文データベースの数は急増しており、現在、全文データベースと書誌データベースの数の比率は約 2:1 に達しており、その数はさらに増加し​​続けています。

データベースの構造定義、全文データベースのデータ内容、使用統計、全文システムで使用される語彙と記憶スペースの調整。

分類

フルテキスト データベース内の情報コンテンツの表現形式に応じて、フルテキスト データベースの主な種類には、電子書籍、電子雑誌、電子書籍、新聞など

書籍の電子版は通常、印刷版と並行して発行され、閲覧、検索、並べ替え、印刷、コピーなどの機能が備わっています。電子書籍はオンラインでアクセスできるため、文書の送信効率と文書の可用性が向上します。電子書籍の出現は人々の読書習慣を改善(変化)させるでしょう。

電子マガジンでは、文書の検索とオリジナルの文書の取得を組み合わせることができます。全文データベースには複数のジャーナルが含まれているため、分野やジャーナルを超えて全文検索が可能となり、情報入手源の範囲が広がります。中国学術雑誌ネットワーク (http://WWW.cnki.net) は、中国学術雑誌 (CD-ROM 版)

電子雑誌と清華通芳 CD-ROM 有限公司によって構築されており、中国の雑誌の全文データベースには、3,000 以上の雑誌と 600 万以上の文書が含まれています。

電子新聞は、データベースを通じて新聞記事やニュースレポートを保存および管理し、オンラインで検索およびクエリすることができます。ニューヨーク タイムズの全文データベースである Information Bank は、このタイプのデータベースの先駆者であり、後にミード データ センターの NEXIS システムに組み込まれました。中国の『人民日報』と北京金盤電子有限公司が共同発行したCD-ROM版「人民日報全文データベース」と、共同発行した「中国日報全文データベース」のCD-ROM版「チャイナデイリー」と中国科学技術データ輸出入総公司が発行する、中国初の新聞の全文データベースです。

構造

全文データベースにはさまざまな構造形式があります。

1 つの構造は、全文データベースが複数のライブラリで構成され、各ライブラリが複数の文書に分割され、文書が複数の情報媒体で構成され、情報媒体が複数のフラグメントに細分化されるというものです。テキストを構成する自然な段落を指し、フィールドと同等です。米国のミードデータセンターにあるLEX​​ISはこの構造となっている。これはメニュー駆動のシステムです。第 1 レベルのメニューにはライブラリ ディレクトリが表示され、第 2 レベルのメニューにはドキュメント ディレクトリが表示されます。ライブラリとドキュメントが選択されると、システムは質問の受信を開始します。

もう 1 つの構造は、全文データベースが複数のデータベースから構成されており、データベースの下に文書レベルの構造はなく、情報媒体が直接フィールドに分割されて格納されています。アメリカのWestern Publishing CompanyのWESTLAWがこの構造になっており、法廷フィールドや裁判官フィールドなどを備え、様々な検索方法を提供できるシステムとなっている。フルテキスト データベースの構造は書誌データベースの構造と似ており、その主文書はシーケンシャル形式で編成されたテキスト ファイルであり、転置ファイルは情報担体レコードの検索可能なフィールドに対応するインデックス ファイルです。全文データベースに記録されるテープフォーマットは、一般的にヘッダ部、ディレクトリ部、データ部などのいくつかの部分に分かれており、既存の全文データベースでは、ドメイン情報担体、データベース利用者、データベース利用者の状況の違いに応じて、異なる実装方法が採用されています。装置。

特徴

全文データベースは他のデータベースと比較して多くの機能を備えており、主な性能は以下の通りです。

① 情報の独自性が含まれます。データベース内の情報は基本的に加工されていない原本であるため、客観的です。

② 情報検索の徹底。あらゆる単語、文章、文字を検索でき、一部の周辺情報も表示される場合があります。

③言語の自然さを取り戻す。自然言語検索を使用したり、ブール値や位置検索を使用したりすることができるため、自然言語の理解を必要とします。

④データ構造は基本的に非構造化されており、一部の標準化可能なデータを除いて、大量のテキストが非構造化されており、リレーショナル データベースでの処理には不便です。

⑤プロ仕様の全文データベース システムは、通常、「自動単語分割」テクノロジーを使用します。

⑥優れた全文データベースには、推論機能と連想検索を備えた知識ベースも含まれています。

⑦ 基本的にクローズドであり、データを更新する必要がなく、安定性が高くなります。

⑧一般に全文データベースは非常に大きな記憶領域を占有し、システムのオーバーヘッドも大きく、検索速度をいかに向上させるかが大きな問題となります。

以上が全文データベースには何が含まれますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。