>일반적인 문제 >전체 텍스트 데이터베이스에는 무엇이 포함됩니까?

전체 텍스트 데이터베이스에는 무엇이 포함됩니까?

小老鼠
小老鼠원래의
2023-06-09 17:21:434511검색

원문 데이터베이스에는 주로 전자책, 전자잡지, 전자신문 등이 포함됩니다. 전체 텍스트 데이터베이스는 문서 색인화 및 기타 처리 단계가 필요하지 않으며 데이터 구성에서 인적 요소를 줄입니다. 따라서 전체 텍스트가 있기 때문에 데이터가 빠르게 업데이트되고 동시에 검색 결과의 정확성이 높아집니다. 직접 제공되므로 원문을 찾는 수고를 덜어주기 때문에 사용자들에게 큰 사랑을 받고 있습니다.

전체 텍스트 데이터베이스에는 무엇이 포함됩니까?

이 튜토리얼의 운영 체제: Windows 11 시스템, Dell G3 컴퓨터.

전문 데이터베이스는 주로 학술지 기사, 학회 논문, 정부 간행물, 연구 보고서, 법률 조항 및 판례, 비즈니스 정보 등 원본 문서의 전문을 포함하는 데이터베이스입니다. 전체 텍스트 데이터베이스는 문서 색인화 및 기타 처리 단계가 필요하지 않으며 데이터 구성에서 인적 요소를 줄입니다. 따라서 전체 텍스트가 있기 때문에 데이터가 빠르게 업데이트되고 동시에 검색 결과의 정확성이 높아집니다. 직접 제공되므로 원문을 찾는 수고를 덜어주기 때문에 사용자들에게 큰 사랑을 받고 있습니다. 전문 데이터베이스의 수는 급증하고 있으며, 현재 전문 데이터베이스와 서지 데이터베이스의 비율은 약 2:1에 이르렀으며 그 수는 계속 증가하고 있습니다.

데이터베이스의 구조 정의, 전체 텍스트 데이터베이스의 데이터 내용, 전체 텍스트 시스템에서 사용되는 어휘 및 저장 공간의 사용 통계 및 조정.

분류

는 전문 데이터베이스의 정보 내용 표시 형태에 따라 구분됩니다. 전문 데이터베이스의 주요 유형에는 전자 서적, 전자 잡지, 전자 신문 등이 있습니다.

전자도서는 일반적으로 인쇄본과 병행하여 출판되며 열람, 검색, 분류, 인쇄, 복사 등의 기능을 갖습니다. 전자책을 온라인으로 접속할 수 있어 문서 전송의 효율성과 문서의 가용성이 향상됩니다. 전자책의 출현은 사람들의 독서 습관을 개선(변화)시킬 것이다.

전자잡지는 문서 검색과 원본 문서 획득을 결합할 수 있습니다. 전문 데이터베이스에는 여러 저널이 포함되어 있어 학문 분야와 저널 전반에 걸쳐 전문 검색이 가능하고 정보를 얻기 위한 출처의 범위가 확장됩니다. 중국 학술 저널 네트워크(http://WWW.cnki.net)는 China Academic Journals(CD-ROM 버전)

Electronic Magazine과 Tsinghua Tongfang CD-ROM Co., Ltd.에 의해 구축되었으며 3,000개 이상의 저널을 보유하고 있습니다. 600만 개 이상의 문서가 포함된 중국 저널 전문 데이터베이스.

전자신문은 신문기사, 보도자료 등을 데이터베이스를 통해 저장, 관리하며, 온라인으로 검색, 조회가 가능합니다. New York Times 전체 텍스트 데이터베이스인 Information Bank는 이러한 유형의 데이터베이스의 선구자였으며 나중에 Mead Data Center의 NEXIS 시스템에 통합되었습니다. 중국 '인민일보'와 북경진판전자유한공사가 공동 발행한 '인민일보 전문 데이터베이스' CD-ROM 버전, '중국 일보 전문 데이터베이스' CD-ROM 버전 "차이나 데일리(China Daily)"와 중국 과학 기술 데이터 수출입 공사가 공동으로 제작한 중국 최초의 뉴스 신문 전문 데이터베이스입니다.

구조

전체 텍스트 데이터베이스는 다양한 구조 형태를 가지고 있습니다.

한 가지 구조는 전체 텍스트 데이터베이스가 여러 라이브러리로 구성되고, 각 라이브러리가 여러 문서로 나뉘며, 문서가 여러 정보 매체로 구성되고, 정보 매체가 여러 조각으로 세분화된다는 것입니다. 텍스트를 구성하는 단락으로, 필드와 동일합니다. 미국 미드(Mead) 데이터센터의 LEXIS는 이런 구조를 갖고 있다. 메뉴 중심의 시스템으로, 1차 메뉴에는 라이브러리 디렉터리가 표시되고, 2차 메뉴에는 문서 디렉터리가 표시됩니다. 라이브러리와 문서를 선택하면 시스템에서 질문을 받기 시작합니다.

또 다른 구조는 전체 텍스트 데이터베이스가 여러 데이터베이스로 구성된다는 것입니다. 데이터베이스 아래에는 문서 수준 구조가 없지만 정보 매체가 직접 필드로 나누어 저장됩니다. 미국 Western Publishing Company의 WESTLAW는 이러한 구조를 가지고 있으며, 법원 필드, 판사 필드 등이 있으며 다양한 검색 방법을 제공할 수 있습니다. 전체 텍스트 데이터베이스의 구조는 서지 데이터베이스의 구조와 유사하며, 주 문서는 순차적 형식으로 구성된 텍스트 파일이고, 반전된 파일은 정보매체 레코드의 검색 가능한 필드에 해당하는 색인 ​​파일입니다. 전문 데이터베이스에 기록되는 테이프 형식은 일반적으로 헤더, 디렉토리, 데이터 부분으로 구분됩니다. 기존 전문 데이터베이스에서는 도메인 정보 보유자, 데이터베이스 사용자 및 장비의 다양한 상황에 따라 다양한 구현 방법이 채택됩니다.

Features

다른 데이터베이스에 비해 Full-text 데이터베이스는 많은 기능을 가지고 있으며 주요 성능은 다음과 같습니다.

① 정보의 독창성을 담고 있습니다. 데이터베이스에 있는 정보는 기본적으로 가공되지 않은 원본 문서이므로 객관적입니다.

② 정보 검색의 철저함. 어떤 단어, 문장, 문자라도 검색이 가능하며, 일부 부수적인 정보도 볼 수 있습니다.

③언어의 자연스러움을 되찾으세요. 자연어 검색을 사용할 수 있고 불리언(Boolean) 및 위치 검색을 사용할 수 있으므로 자연어 이해가 가능합니다.

4데이터 구조는 기본적으로 비정형입니다. 일부 정규화된 데이터를 제외하면 많은 양의 텍스트가 비정형이므로 관계형 데이터베이스로 처리하기에 편리하지 않습니다.

⑤전문 전체 텍스트 데이터베이스 시스템은 일반적으로 "자동 단어 분할" 기술을 사용합니다.

⑥좋은 전체 텍스트 데이터베이스에는 추론 기능과 연관 검색 기능을 갖춘 지식 기반도 있습니다.

⑦ 기본적으로 폐쇄형이므로 데이터 업데이트가 필요하지 않으며 안정성이 더욱 높습니다.

8전체 텍스트 데이터베이스는 일반적으로 매우 큰 저장 공간을 차지하고 큰 시스템 오버헤드가 필요합니다. 검색 속도를 어떻게 향상시킬 것인가가 큰 문제입니다.

위 내용은 전체 텍스트 데이터베이스에는 무엇이 포함됩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.