집 >기술 주변기기 >일체 포함 >Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-09-10 15:05:081361검색

1. 그래프 개요

먼저 지식 그래프의 기본 개념을 소개합니다.

1. 지식 그래프란?

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지식 그래프는 그래프 구조를 사용하여 사물 간의 복잡한 관계를 모델링하고 식별하며 도메인 지식을 구현하는 데 중요한 초석입니다. 검색 엔진, 지능형 질문 응답, 언어 의미 이해, 빅 데이터 의사 결정 분석 및 기타 여러 분야에서 널리 사용됩니다.

지식 그래프는 데이터 간의 의미론적 관계와 구조적 관계를 모두 모델링하며 딥러닝 기술과 결합하여 두 관계를 더 잘 통합하고 표현할 수 있습니다.

2. 지식 그래프를 구축해야 하는 이유

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

우리는 주로 다음 두 가지 점에서 지식 그래프를 구축하고자 합니다. 한편으로는 개미 자체의 데이터 소스 배경의 특징입니다. 반면에 지식 그래프가 어떤 이점을 가져올 수 있는지.

[1] 데이터 소스 자체가 다양하고 이질적이어서 통일된 지식 이해 시스템이 부족합니다.

[2] 지식 그래프는 다음을 포함한 다양한 이점을 가져올 수 있습니다.

의미론적 표준화: 그래프 구성 기술을 사용하여 엔터티, 관계, 개념 등의 표준화 및 정규화 수준을 향상시킵니다.
도메인 지식 축적: 의미론과 그래프 구조를 기반으로 지식 표현과 상호 연결을 실현하여 풍부한 도메인 지식을 축적합니다.
지식 재사용: 고품질 Ant 지식 그래프를 구축하고 통합, 연결 및 기타 서비스를 통해 비즈니스 비용을 절감하고 효율성을 향상시킵니다.
지식 추론 발견: 위험 관리, 신용, 청구, 가맹점 운영, 마케팅 추천 등과 같은 시나리오를 제공하는 그래프 추론 기술을 기반으로 더 많은 롱테일 지식을 발견합니다.

3. 지식 그래프 구축 방법 개요

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

다양한 비즈니스 지식 그래프를 구축하는 과정에서 우리는 주로 개미 지식 그래프에 대한 일련의 일반적인 구축 패러다임을 제시했습니다. 다음 5개 부분:

그래프 콜드 스타트의 중요한 데이터 소스인 비즈니스 데이터에서 시작하세요.
엔터티 정렬 기술을 통해 다른 도메인의 지식 그래프를 기존 그래프와 통합합니다.
비즈니스 도메인의 구조화된 지식 기반과 기존 지식 그래프의 통합도 엔터티 정렬 기술을 통해 달성됩니다.
텍스트와 같은 비정형 및 반정형 데이터는 엔터티 연결 기술을 통해 정보를 추출하고 기존 지도를 업데이트하는 데 사용됩니다.
도메인 개념 시스템과 전문가 규칙의 통합으로 관련 개념과 규칙을 기존 지식 그래프와 연결합니다.

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

공통의 건설 패러다임을 갖게 된 후에는 체계적인 건설을 진행해야 합니다. Ant Knowledge Graph의 체계적인 구성을 두 가지 관점에서 살펴봅니다. 첫째, 알고리즘 관점에서는 지식 추론, 지식 매칭 등 다양한 알고리즘 역량이 존재한다. 구현 관점에서 보면 가장 낮은 기본 종속성은 그래프 컴퓨팅 엔진과 인지 기반 컴퓨팅을 포함하며 그 위에는 NLP 및 다중 모드 플랫폼과 그래프 플랫폼이 포함됩니다. 이를 기반으로 우리는 지식 그래프를 기반으로 몇 가지 그래프 추론을 수행할 수 있으며, 상단에는 몇 가지 일반적인 알고리즘 기능을 제공합니다.

2. 그래프 구축

다음으로 그래프 구축, 그래프 융합, 그래프 인식 등 지식 그래프 구축에 있어 앤트그룹의 핵심 역량을 공유하겠습니다.

1. 지도 구성

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지도 구성 과정은 주로 6단계로 구성됩니다.

다변량 데이터를 얻기 위한 데이터 소스.
지식 모델링은 개념, 엔터티, 이벤트라는 세 가지 영역에서 모델링하여 대규모 데이터를 구조화된 데이터로 변환합니다.
지식 습득 및 지식 처리 R&D 플랫폼 구축.
Ha3 저장 및 그래프 저장 등을 포함한 지식 저장
지식 편집, 온라인 쿼리, 추출 등을 포함한 지식 작업
지속적인 학습을 통해 모델이 자동으로 반복적으로 학습할 수 있습니다.

구축 과정에서의 세 가지 경험과 기술

전문 지식을 통합한 개체 분류

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지식 그래프 구축 시 개미의 대규모 문제인 입력 개체 분류가 필요함 시나리오 라벨 분류 작업. 엔터티 분류를 위한 전문 지식을 통합하기 위해 다음과 같은 세 가지 주요 최적화 포인트가 만들어집니다.

의미 정보 향상: 레이블 의미 그래프 표현 학습의 Embedding을 소개합니다.
대조 학습: 비교를 위해 계층적 라벨 감독을 추가합니다.
논리적 규칙 제약: 전문가의 사전 지식을 통합합니다.

도메인 어휘에 개체 인식 주입

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

개체 인식을 기반으로 단어 가장자리의 그래프 구조에서 시작하여 모델은 가장자리의 합리적인 가중치와 시끄러운 단어 연결을 학습합니다. . 경계 대조 학습과 의미적 대조 학습이라는 두 가지 모듈이 제안됩니다.

경계 충돌 문제를 해결하기 위한 경계 대조 학습. 어휘가 주입된 후 완전히 연결된 그래프가 구성되고 GAT를 사용하여 각 토큰의 표현을 학습합니다. 경계 분류의 올바른 부분은 긍정적인 예시 그래프를 구성하고, 잘못된 부분은 비교를 통해 부정적인 예시 그래프를 구성합니다. , 모델은 각 토큰의 경계 정보를 학습합니다.
의미 대조 학습은 의미 충돌 문제를 해결하는 데 사용됩니다. 프로토타입 학습 아이디어를 바탕으로 라벨의 의미론적 표현을 추가하여 각 토큰과 라벨 의미론 간의 연관성을 강화합니다.

논리적 규칙에 의해 제한된 소규모 샘플 관계 추출

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

도메인 문제에서는 레이블이 지정된 샘플이 거의 없으며 퓨샷 또는 제로샷 시나리오에 직면하게 됩니다. 이 경우 관계 추출을 수행합니다. 핵심 아이디어는 서로 다른 의미 공간으로 인한 성능 저하 문제를 해결하기 위해 엔터티 유형 일치로 인한 암기 학습 문제를 해결하기 위해 논리적 규칙을 기반으로 하는 추론 모듈을 설계하는 것입니다. 미묘한 차이 인식 모듈이 설계되었습니다.

2. 그래프 융합

그래프 융합이란 서로 다른 사업 분야의 그래프 간의 정보를 융합하는 것을 말합니다.

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

그래프 융합의 이점:

비즈니스 간 지식 재사용: 그래프 온톨로지 모델을 기반으로 비즈니스 간 지식 연결이 실현됩니다.
잘못된 데이터 복사본 줄이기: 연결 및 적용, 표준화된 지식 서비스 링크.
신속한 비즈니스 가치 구현: 비즈니스를 위한 데이터 검색 비용을 줄이고, 지식 재사용을 통해 더 큰 비즈니스 가치를 제공하며, 비용을 절감하고 효율성을 향상시킵니다.

그래프 융합의 엔터티 정렬

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지식 그래프 융합 프로세스의 핵심 기술 포인트는 엔터티 정렬입니다. 여기서는 주로 두 개의 모듈, 즉 프레젠테이션 모듈과 상호 작용 모듈을 포함하는 SOTA 알고리즘 BERT-INT를 사용합니다.

알고리즘의 구현 과정에는 주로 리콜과 정렬이 포함됩니다.

리콜: 표현 모듈에서는 제목 텍스트의 BERT 벡터 유사성 리콜이 사용됩니다.

제목 + 속성 + 이웃을 기반으로 한 순위 모델: ü 표현 모듈을 사용하여 제목, 속성 및 이웃의 벡터 표현을 완성합니다.

제목의 cos 유사성을 계산합니다.
두 개체의 속성과 이웃 집합 간의 유사성 행렬을 각각 계산하고 1차원 유사성 특징을 추출합니다.
세 가지 특징을 특징 벡터에 결합하여 손실을 계산합니다.

3. 그래프 인식

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

이 부분에서는 주로 Ant의 내부 지식 표현 학습 프레임워크를 소개합니다.

Ant는 인코더-디코더 프레임워크를 기반으로 한 지식 표현 학습을 제안했습니다. 그 중 Encoder는 그래프 신경 학습 방법의 일부이고 Decoder는 링크 예측과 같은 지식 표현 학습 방법입니다. 이 표현 학습 프레임워크는 보편적인 엔터티/관계 임베딩의 생성을 자체 감독할 수 있으며, 이는 여러 가지 이점을 제공합니다. 1) 임베딩 크기가 원래 기능 공간보다 훨씬 작아서 저장 비용이 절감됩니다. 2) 저차원 벡터가 더 조밀하여 효과적으로 완화됩니다. 3) 동일한 벡터 공간에서 학습하면 여러 소스의 이종 데이터가 더 자연스럽게 융합됩니다. 4) 임베딩은 특정 보편성을 가지며 다운스트림 비즈니스 사용에 편리합니다.

3. 그래프 응용

다음으로 Ant Group의 대표적인 지식 그래프 응용 사례를 공유하겠습니다.

1. 그래프의 시나리오 적용 모드

구체적인 사례를 소개하기 전에 주로 지식 습득, 지식 관리 및 추론, 지식 서비스를 포함하는 Ant 지식 그래프의 여러 시나리오 적용 모드를 소개하겠습니다. 아래 그림과 같이.

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

2. 대표적인 사례

사례 1: 지식 그래프를 기반으로 한 구조화된 매칭 회상

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

비즈니스 시나리오는 Alipay의 주요 검색에 있는 미니 프로그램의 내용과 해결해야 할 비즈니스입니다. 문제점은 다음과 같습니다.

제품 엔터티의 부족과 제품의 상위 및 하위 수준 간의 관계.
소규모 프로그램 제품 수준에 대한 이해력이 약합니다.

해결책은 판매자 지식 그래프를 구축하는 것입니다. 판매자 맵의 상품 관계와 결합되어 사용자 쿼리 상품 수준에 대한 구조적인 이해가 이루어집니다.

사례 2: 추천 시스템에 사용자 의도 실시간 예측 적용

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

이 사례는 홈페이지 추천을 위한 사용자 의도 실시간 예측에 관한 것으로, AlipayKG가 구축된 프레임워크는 다음과 같습니다. 위 그림. 관련 연구는 톱 컨퍼런스 www 2023에도 게재되었습니다. 더 자세한 이해를 위해 논문을 참고하실 수 있습니다.

사례 3: 지식 표현을 통합한 마케팅 쿠폰 추천

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

이 시나리오는 소비자 쿠폰 추천 시나리오입니다.

심각한 머리 효과.
사용자 확인 및 수집 동작이 드물다.
콜드스타트 사용자와 쿠폰은 많은데 해당 풋프린트 데이터가 부족합니다.

위의 문제를 해결하기 위해 동적 그래프 표현을 융합하는 Deep Vector Recall 알고리즘을 설계했습니다. 사용자 소비 쿠폰의 동작이 주기적이라는 것을 알았기 때문에 정적 단일 에지는 이러한 주기적 동작을 모델링할 수 없습니다. 이를 위해 먼저 동적 그래프를 구축한 후 팀에서 자체 개발한 동적 그래프 알고리즘을 사용하여 임베딩 표현을 학습한 후 벡터 리콜을 위해 트윈 타워 모델에 넣었습니다.

사례 4: 진단 및 치료 사건을 기반으로 한 지능형 청구 전문가 규칙 추론

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

마지막 사례는 그래프 규칙 추론에 관한 것입니다. 의료보험 건강 지도를 예로 들면 의료 지식, 청구 규칙, '사람' 건강 정보가 포함되어 있으며, 이는 개체와 연결되고 논리적 규칙과 결합되어 의사 결정의 기초가 됩니다. 지도를 통해 전문가 청구처리의 효율성이 향상되었습니다.

4. 그래프와 대형 모델

마지막으로 현재의 급속한 대형 모델 개발 맥락에서 지식 그래프의 가능성에 대해 간략하게 논의하겠습니다.

1. 지식 그래프와 대형 모델의 관계

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지식 그래프와 대형 모델에는 각각 장단점이 있습니다. 대형 모델의 주요 장점은 일반 지식 모델링과 보편성입니다. 모델이 딱 맞습니다. 이는 지식 그래프의 장점으로 보완될 수 있습니다. 지도의 장점은 높은 정확성과 강력한 해석 가능성입니다. 대규모 모델과 지식 그래프는 서로 영향을 미칠 수 있습니다.

그래프와 대형 모델을 통합하는 방법에는 일반적으로 세 가지가 있습니다. 하나는 지식 그래프를 사용하여 대형 모델을 향상시키는 것이고, 두 번째는 대형 모델을 사용하여 지식 그래프를 향상시키는 것입니다. 지식 그래프, 보완적인 장점이 있는 대형 모델은 매개변수화된 지식 베이스로 간주될 수 있고, 지식 그래프는 표시된 지식 베이스로 간주될 수 있습니다.

2. 대형 모델 및 지식 그래프 적용 사례

지식 그래프 구성에 대형 모델이 사용됩니다.

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

지식 그래프 구성 과정에서 대형 모델은 정보 추출, 지식 모델링 및 관계 추론.

대형 모델을 사용하여 지식 그래프에서 정보 추출에 적용하는 방법

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

DAMO Academy의 이 작업은 정보 추출 문제를 두 단계로 분해합니다.

첫 번째 단계에서 우리는 검색 공간과 계산 복잡성을 줄이기 위해 텍스트에 존재하는 엔터티, 관계 또는 이벤트 유형을 찾습니다.
두 번째 단계에서는 이전에 추출된 유형과 주어진 해당 목록을 기반으로 관련 정보를 추가로 추출합니다.

대형 모델에 지식 그래프 적용

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

대형 모델에 지식 그래프 적용에는 주로 세 가지 측면이 포함됩니다.

지식 그래프를 대형 모델 입력에 통합합니다. 지식 그래프를 사용하여 데이터 정리를 수행할 수도 있고, 지식 그래프를 사용하여 정형 접합을 직접 수행할 수도 있습니다.

지식 그래프를 대규모 모델 교육에 통합합니다. 예를 들어, 두 가지 작업을 동시에 훈련할 수 있으며, 지식 그래프는 지식 표현 작업에 사용할 수 있고 대규모 모델은 MLM 사전 훈련에 사용할 수 있으며 두 작업을 공동으로 모델링합니다.

대형 모델 추론에 지식 그래프를 삽입합니다. 첫째, 대형 모델의 두 가지 문제를 해결할 수 있습니다. 하나는 대형 모델의 "말도 안되는" 문제를 피하기 위해 지식 그래프를 선험적 제약으로 사용하는 것입니다. 두 번째는 대형 모델의 적시성 문제를 해결하는 것입니다. 한편, 지식 그래프를 기반으로 대규모 모델 생성을 위한 해석 가능한 솔루션을 제공할 수 있습니다.

지식 강화 질문 및 답변 시스템

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

주로 두 가지 범주가 포함됩니다. 하나는 대규모 모델을 사용하여 KBQA 모델을 최적화하는 지식 그래프 강화 질문 및 답변 시스템입니다. LangChain, GopherCite 및 New Bing에 이르기까지 대규모 모델을 사용하여 지식 기반 질문과 답변을 공식화합니다.

지식 강화 생성 검색 질문 및 답변 시스템은 다음과 같은 장점이 있습니다.

검색 시스템에 액세스하여 적시성 문제를 해결합니다.
참고 링크를 제공하면 수동 검증을 수행하여 사실 오류를 해결할 수 있습니다.
검색 결과를 소개하고, 맥락을 풍부하게 하며, 대형 모델 생성 효과를 강화합니다.

3. 요약 및 전망

Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용

다음 세 가지 방향을 포함하여 지식 그래프와 대형 모델이 더 효과적으로 상호 작용하고 협력할 수 있는 방법:

NLP, In에서 지식 그래프 및 대형 모델 홍보 -질문 응답 시스템과 같은 분야의 심층적 응용.
대형 모델의 환각 감지 및 해독을 위해 지식 그래프를 사용합니다.
지식 그래프와 결합된 대규모 도메인 모델을 연구 및 개발합니다.

위 내용은 Jia Qianghai: 개미의 대규모 지식 그래프 구축 및 응용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Token int 事件算法 bert nlp 搜索引擎 langchain embedding

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사："Starry Sky", 로봇 소개 출시: 플레이어를 가족처럼 대함다음 기사："Starry Sky", 로봇 소개 출시: 플레이어를 가족처럼 대함