지식 추출은 일반적으로 풍부한 의미 정보가 포함된 태그 및 구문과 같은 구조화되지 않은 텍스트에서 구조화된 정보를 마이닝하는 것을 의미합니다. 이는 업계에서 콘텐츠 이해, 제품 이해 등의 시나리오에서 널리 사용됩니다. 사용자가 생성한 텍스트 정보에서 가치 있는 태그를 추출하여 콘텐츠나 제품에 적용합니다.
지식 추출은 일반적으로 추출된 태그나 문구의 추출을 동반합니다. 분류는 일반적으로 명명된 엔터티 인식 작업으로 모델링됩니다. 일반적인 명명된 엔터티 구성 요소를 식별하고 구성 요소를 지명, 사람 이름, 조직 이름 등으로 분류합니다. 도메인 관련 태그 단어 추출은 태그를 식별하고 결합합니다. 시리즈(Air Force One, Sonic 9), 브랜드(Nike, Li Ning), 유형(신발, 의류, 디지털), 스타일(INS 스타일, 복고풍 스타일, 북유럽 스타일) 등 도메인 정의 카테고리로 구분합니다. 등.
설명의 편의를 위해 아래에서는 정보가 풍부한 태그나 문구를 태그 단어로 통칭하겠습니다
그림 1 지식 추출 방법의 분류
재작성된 내용: 계산 방법: tfidf(t, d, D) = tf(t, d) * idf(t, D), 여기서 tf(t, d) = log(1 + freq(t) , d )), freq(t,d)는 현재 문서 d에 후보 단어 t가 나타나는 횟수를 나타내고, idf(t,D) = log(N/count(d∈D:t∈D))는 후보 단어 t를 나타냅니다. 얼마나 많은 문서에 나타납니까? 단어의 희귀성을 나타내는 데 사용됩니다. 단어가 하나의 문서에만 나타나는 경우 해당 단어가 드물고 특정 비즈니스 시나리오에서는 외부 도구를 사용할 수 있음을 의미합니다. 후보 단어를 분석하려면 먼저 품사 표시를 사용하여 명사를 선별하는 등의 선별 작업을 수행합니다.
YAKE[1]: 키워드 특징을 포착하기 위해 5가지 특징이 정의되며, 이를 경험적으로 결합하여 각 키워드에 점수를 할당합니다. 점수가 낮을수록 키워드가 더 중요합니다. 1) 대문자: 대문자로 된 용어(각 문장의 시작 단어 제외)는 소문자로 된 용어보다 중요하며 이는 중국어의 굵은 단어 수에 해당합니다. 2) 단어 위치: 텍스트의 각 단락 일부 단어; 3) 단어 빈도는 단어 발생 빈도를 계산합니다. 4) 단어 컨텍스트는 고정된 창 크기에 나타나는 다양한 단어의 수를 측정하는 데 사용됩니다. - 발생하면 단어의 중요성이 낮아집니다. 5) 단어가 다른 문장에 나타나는 횟수가 많을수록 더 중요합니다.Graph-Based Model
TextRank[2]: 먼저 텍스트에 대해 단어 분할 및 품사 태깅을 수행하고 중지 단어를 필터링하여 지정된 품사가 있는 단어만 남깁니다. 그래프를 구성합니다. 각 노드는 단어이고, 엣지는 단어 간의 관계를 나타내며, 이는 미리 정해진 크기의 이동 창 내에서 단어의 동시 발생을 정의하여 구성됩니다. PageRank를 사용하여 수렴할 때까지 노드 가중치를 역순으로 정렬하여 가장 중요한 k 단어를 후보 키워드로 표시하고 인접한 구문을 형성하는 경우 여러 키워드로 결합합니다. 문구에 대한 문구.Representation-Based Method Embedding-Based Model
감독 방법
그림 2 BLING-KPE 모델 구조
이 기사에서는 다음 네 가지 조건이 동시에 충족되는 단어를 고품질 문구로 정의합니다.
그림 3 AutoPhrase 태그 마이닝 프로세스 Positive Pool로 외부 지식 베이스에서 고품질 문구를 획득하고, Negative Pool로 다른 문구 예를 들어 논문의 실험 통계에 따르면 Negative example pool에는 10%의 고품질 문구가 있는데, 이는 지식 베이스에서 부정적인 예시로 분류되지 않기 때문입니다. 분류의 영향을 줄이기 위해 그림 4와 같은 랜덤 포레스트 앙상블 분류기를 사용합니다. 산업 응용 분야에서 분류기 훈련은 사전 훈련 모델 BERT [13]를 기반으로 하는 문장 간 관계 작업의 2분류 방법을 사용할 수도 있습니다.
그림 4 AutoPhrase 태그 단어 분류 방법 IV. 태그 단어 분류
감독 방법
Lattice LSTM[8]은 중국어 NER 작업을 위한 어휘 정보를 최초로 도입한 작업입니다. Lattice는 어휘 정보(사전)를 통해 문장을 일치시킬 때 어휘의 시작 문자와 끝 문자가 그리드 위치를 결정합니다. , 그림 5(a)와 같이 격자형 구조를 얻을 수 있습니다. Lattice LSTM 구조는 5(b)에 표시된 대로 어휘 정보를 기본 LSTM에 융합합니다. 예를 들어 "store"는 "people and drug store"를 융합합니다. "약국" 정보. 각 문자에 대해 Lattice LSTM은 어텐션 메커니즘을 사용하여 다양한 수의 단어 단위를 융합합니다. Lattice-LSTM은 NER 작업의 성능을 효과적으로 향상시키지만 RNN 구조는 장거리 종속성을 캡처할 수 없으며 동시에 동적 Lattice 구조는 GPU 병렬성을 완전히 수행할 수 없습니다. 이 두 가지 질문을 효과적으로 개선했습니다. 그림 5(c)와 같이 Flat 모델은 Transformer 구조를 통해 장거리 종속성을 포착하고 Lattice 구조를 통합하기 위해 Position Encoding을 설계한 후 문자와 일치하는 단어를 문장으로 이어붙인 후 각각의 문자와 단어를 Construct 2로 한다. 헤드 위치 인코딩 및 테일 위치 인코딩은 방향성 비순환 그래프에서 평평한 평면 격자 변환기 구조로 격자 구조를 평면화합니다.
그림 5 어휘 정보를 도입한 NER 모델
원격 감시 시 소음 문제를 해결하기 위해 BIOE 라벨링 방법을 대체하기 위해 Tie or Break의 개체 경계 식별 체계를 사용합니다. 그 중 Tie는 현재 단어와 이전 단어가 같은 엔터티에 속한다는 뜻이고, Break는 현재 단어와 이전 단어가 더 이상 같은 엔터티에 속하지 않는다는 뜻이다. 엔터티 분류 단계에서는 Fuzzy CRF를 사용해 처리한다.
그림 6 AutoNER 모델 구조 다이어그램
BOND
Pictures다시 작성해야 하는 내용은 다음과 같습니다. 그림 7 BOND 훈련 흐름도
V. 요약
【2】Mihalcea R, Tarau P. Textrank: 텍스트로 정리하기[C]//자연어 처리의 경험적 방법에 관한 2004년 컨퍼런스 진행 2004: 404-411.
【3】Bennani-Smires K, Musat C, Hossmann A, et al. 문장 임베딩을 사용한 간단한 비지도 키 구문 추출[J] 】Witten I H, Paynter GW, Frank E, et al. KEA: Practical automatic keyphrase extract[C]//Proceedings of the third ACM conference on Digital library 1999: 254-255.
번역 내용:【6】Xiong L. , Hu C, Xiong C, 외. 언어 모델을 뛰어넘는 오픈 도메인 웹 키워드 추출[J]. arXiv preprint arXiv:1911.02671, 2019
【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020) BERT를 사용한 공동 키프레이즈 청킹 및 현저성 순위. arXiv preprint arXiv:2004.13639.
다시 작성해야 하는 내용은 다음과 같습니다. [8] Zhang Y, Yang J. 격자 LSTM[C]를 사용한 중국어 명명 개체 인식. ACL 2018
【9】Li X, Yan H, Qiu X, et al. FLAT: 평면 격자 변압기를 사용하는 중국 NER[C] ACL 2020.
【10】Shang J, Liu J, Jiang M, et al. 대규모 텍스트 말뭉치의 자동 구문 마이닝[J] 지식 및 데이터 엔지니어링에 관한 IEEE 거래, 2018, 30(10): 1825-1837.
【11】 Shang J, Liu L, Ren X, et al. . 도메인별 사전을 사용하여 명명된 엔터티 태거 학습[C].
【12]Liang C, Yu Y, Jiang H, et al. Bond: 원격 감독을 통한 Bert 지원 개방형 도메인 명명된 엔터티 인식[ C] //지식 발견 및 데이터 마이닝에 관한 제26회 ACM SIGKDD 국제 컨퍼런스 진행. 2020: 1054-1064.
【13】Meituan 검색에서 NER 기술 탐색 및 실습, https://zhuanlan.zhihu.com/ p /163256192
위 내용은 지식 추출에 대해 이야기해 볼까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!