>  기사  >  기술 주변기기  >  Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법

WBOY
WBOY앞으로
2023-04-11 14:37:031737검색

게스트 | 왕린

구성 | 장펑

계획 | 두 가지 인공 지능이 있습니다. 더 큰 세력: 합리주의와 경험주의 . 그러나 실제 산업 등급 제품에서는 이 두 세력이 서로를 보완합니다. 이 모델 블랙박스에 더 많은 제어 가능성과 더 많은 지식을 도입하려면 상징적 지식을 전달하는 지식 그래프를 적용해야 합니다.

몇일 전 51CTO가 주최한

WOT 글로벌 기술 혁신 컨퍼런스에서 Taifan Technology의 CTO인 Wang Lin 박사가 진화 "그래프 데이터베이스: 통해"라는 주제를 가져왔습니다. 인지 지능에 대한 새로운 접근법'은 그래프 데이터베이스 모델의 역사와 진화, 그래프 데이터베이스가 인지 지능을 달성하는 중요한 방법, OpenGauss에서 그래프 데이터베이스의 설계 및 실제 경험에 초점을 맞추고 있습니다. 여러분에게 영감을 주기 위해 연설 내용을 다음과 같이 구성했습니다.

어떤 차원에서 인공지능은 두 가지 범주로 나눌 수 있는데 하나는
연결주의

이고 다른 하나는

연결주의 인간의 뇌 구조를 시뮬레이션하여 지각, 인지, 판단 등의 일을 하는 우리에게 익숙한 딥러닝입니다.

다른 유형은

상징주의로, 일반적으로 인간의 마음을 시뮬레이션합니다. 인지 과정은 상징적 표현에 대한 작업입니다. 따라서 사고와 추론에 자주 사용됩니다. 대표적인 대표적인 기술이 지식그래프이다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


그래프로 AI를 강화하는 4가지 방법

1. 상황별 의사결정

지식 그래프는 본질적으로 그래프를 기반으로 하는 의미 네트워크로, 개체와 개체 간의 관계를 나타냅니다. 높은 수준에서 지식 그래프는 상호 연관된 지식의 모음이기도 하며, 실제 세계와 개체와 사물 간의 관계를 인간이 이해할 수 있는 형식으로 설명합니다.

지식 그래프는 의사결정에 도움이 되는 더 많은 도메인 지식과 상황별 정보를 제공할 수 있습니다. 애플리케이션 관점에서 볼 때 지식 그래프는 세 가지 유형으로 나눌 수 있습니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


첫 번째는

도메인 관련 지식 그래프입니다. 정형 및 반정형 데이터에서 추출된 지식은 해당 분야와 관련된 지식 그래프로 구성되며, 가장 대표적인 응용 프로그램은 Google의 검색 엔진입니다.

두 번째는

외부 인식 지식 그래프입니다. 외부 데이터 소스를 집계하고 관심 있는 내부 엔터티에 매핑합니다. 일반적인 응용 프로그램은 공급망 위험 분석입니다. 공급망을 통해 공급업체, 업스트림 및 다운스트림, 공장 및 기타 공급 라인에 대한 정보를 볼 수 있으므로 문제가 있는 위치와 중단 위험이 있는지 여부를 분석할 수 있습니다.

세 번째는

자연어 처리 지식 그래프입니다. 자연어 처리에는 수많은 기술 용어는 물론 현장의 키워드까지 포함되어 있어 자연어 쿼리를 만드는 데 도움이 됩니다. 2. 운영 효율성 향상

머신러닝 방법은 테이블에 저장된 데이터에 의존하는 경우가 많으며, 이러한 데이터의 대부분은 실제로 리소스 집약적인 작업입니다. 지식 그래프는 효율성이 높은 분야에서 관련 콘텐츠를 제공할 수 있으며, 데이터는 연결되어 있습니다. 대규모의 신속한 분석에 도움이 되는 관계에서 여러 수준의 분리를 달성합니다. 이러한 관점에서 보면 그래프 자체가 머신러닝의 효과를 가속화합니다.

게다가 기계 학습 알고리즘은 모든 데이터에 대해 계산해야 하는 경우가 많습니다. 간단한 그래프 쿼리를 통해 필요한 데이터의 하위 그래프를 반환할 수 있어 운영 효율성이 가속화됩니다.

3. 예측 정확도 향상

관계는 행동을 예측하는 가장 강력한 변수인 경우가 많으며, 관계의 특성은 그래프를 통해 쉽게 얻을 수 있습니다.

데이터와 관계도를 연관시켜 관계의 특징을 보다 직접적으로 추출할 수 있습니다. 하지만 전통적인 머신러닝 방법에서는 데이터를 추상화하고 단순화할 때 실제로 많은 중요한 정보가 손실되는 경우가 있습니다. 따라서 관계형 속성을 사용하면 이 정보를 잃지 않고 분석할 수 있습니다. 또한 그래프 알고리즘은 긴밀한 커뮤니티와 같은 이상 현상을 발견하는 프로세스를 단순화합니다. 긴밀한 커뮤니티 내에서 노드의 점수를 매기고 기계 학습 모델 교육에 사용할 정보를 추출할 수 있습니다. 마지막으로, 모델에 사용되는 기능의 수를 가장 관련성이 높은 하위 집합으로 줄이기 위해 그래프 알고리즘을 사용하여 기능 선택이 수행됩니다.

4. 설명 가능성

최근 몇 년 동안 우리는 "설명 가능성"에 대해 자주 들었습니다. 이는 인공 지능을 적용하는 데 있어 특히 큰 과제입니다. 또한 특히 의료, 금융, 사법과 같은 일부 특정 응용 분야에서 해석 가능성 측면에서 많은 매력을 갖고 있습니다.

해석에는 세 가지 측면이 포함됩니다.

(1) 해석 가능한 데이터. 왜 데이터가 선택되었는지, 데이터의 출처는 무엇인지 알아야 합니다. 데이터는 해석 가능해야 합니다.

(2) 해석 가능한 예측 . 해석 가능한 예측은 특정 예측에 어떤 기능이 사용되는지, 어떤 가중치가 사용되는지 알아야 함을 의미합니다.

(3) 해석 가능한 알고리즘. 설명 가능한 알고리즘의 현재 전망은 매우 매력적이지만 현재 연구 분야에서 Tensor 네트워크가 제안되고 있으며 이러한 방법을 사용하여 알고리즘에 특정 해석 가능성을 부여할 수 있습니다.


주류 그래프 데이터 모델

인공지능의 응용과 발전에 있어서 그래프는 너무나 중요한데 어떻게 하면 그래프를 잘 활용할 수 있을까요? 가장 먼저 주목해야 할 것은 그래프의 저장 관리, 즉 그래프 데이터 모델이다.

현재 가장 주류인 두 가지 그래프 데이터 모델이 있습니다: RDF 그래프와 속성 그래프.

1. RDF 다이어그램

RDF는 Resource Description Framework의 약자로서 Semantic World Wide Web에서 기계가 이해할 수 있는 정보의 교환을 표현하기 위해 W3C에서 공식화한 표준 데이터 모델입니다. RDF 그래프에서 각 리소스는 고유 ID 중 하나로 HTTP URL을 갖습니다. RDF 정의는 사실 진술을 나타내는 삼중항 형태로 되어 있는데, 여기서 S는 주어, P는 술어, O는 목적어를 나타냅니다. 그림에서 Bob은 MonoLisa에 관심이 있으며 이것이 RDF 다이어그램이라는 사실을 언급합니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


은 RDF 그래프의 데이터 모델에 해당하며 자체 쿼리 언어인 SPARQL을 갖습니다. SPARQL은 W3C에서 개발한 RDF 지식 그래프용 표준 쿼리 언어입니다. SPARQL은 구문에서 SQL로부터 교훈을 얻었으며 쿼리의 기본 단위도 삼중 패턴입니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법

2. 속성 그래프

속성 그래프 모델의 각 정점과 가장자리에는 고유 ID가 있으며 정점과 가장자리에도 RDF 그래프의 리소스 유형에 해당하는 레이블이 있습니다. 또한 정점과 가장자리에는 속성 이름과 속성 값으로 구성된 속성 집합이 있어 속성 그래프 모델을 형성합니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


마찬가지로 속성 그래프 모델에도 쿼리 언어인 Cypher가 있습니다. Cypher는 선언적 쿼리 언어이기도 합니다. 사용자는 검색하려는 내용만 선언하면 되며 검색 방법을 지정할 필요가 없습니다. Cypher의 주요 특징은 ASCII 예술적 구문을 사용하여 그래프 패턴 일치를 표현한다는 것입니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


인공지능의 발달과 함께 인지지능의 발달과 지식그래프의 활용이 늘어나고 있습니다. 따라서 최근 시장에서는 그래프 데이터베이스가 점점 더 많은 주목을 받고 있지만, 현재 그래프에서 직면하고 있는 중요한 문제는 데이터 모델과 쿼리 언어 간의 불일치이며, 이는 해결이 시급한 문제이다.


OpenGauss 그래프 데이터베이스를 연구하게 된 동기

OpenGauss 그래프 데이터베이스를 연구하는 출발점은 크게 두 가지 측면입니다.

한편으로는 지식 그래프 자체의 특징을 활용하고 싶습니다. 예를 들어, 고성능, 고가용성, 높은 보안성, 손쉬운 운영 및 유지 관리 측면에서 데이터베이스는 이러한 기능을 그래프 데이터베이스에 통합할 수 있는 것이 매우 중요합니다.

한편, 우리는 그래프 데이터 모델 고려부터 시작합니다. 현재 두 개의 데이터 모델과 두 개의 쿼리 언어가 있습니다. 관계형 데이터베이스에서 프로젝션, 선택, 조인 등과 같은 서로 다른 두 쿼리 언어 뒤에 의미 연산자를 정렬하면 SPARQL 및 Cypher 언어 뒤에 의미 연산자를 제공합니다. 두 개의 서로 다른 구문 보기를 통해 자연스러운 상호 운용성을 달성합니다. 즉, 내부 의미론이 일관될 수 있어서 Cypher를 사용하여 RDF 그래프를 확인할 수 있고, SPARQL을 사용하여 속성 그래프를 확인할 수도 있다는 점은 매우 좋은 특징을 이룹니다.


OpenGauss - 그래프 아키텍처

기본 레이어는 OpenGauss를 사용하고 관계형 모델을 그래프로 사용하여 물리적 모델을 저장하는 아이디어는 RDF 그래프와 속성 그래프 간의 불일치를 해결하는 것입니다. 가장 큰 공통 분모를 찾아서 기본 레이어에 물리적으로 저장합니다.

이 아이디어를 바탕으로 OpenGauss-Graph 아키텍처의 최하층은 인프라이며, 그 다음에는 액세스 방법, 통합 속성 그래프, RDF 그래프 처리 및 관리 방법이 있습니다. 다음은 하위 그래프 일치 연산자, 경로 탐색 연산자, 그래프 분석 연산자, 키워드 쿼리 연산자를 포함한 통합 의미 연산자를 지원하는 통합 쿼리 처리 실행 엔진입니다. 더 나아가 SPARQL 인터페이스와 Cypher 인터페이스를 제공하는 통합 API 인터페이스가 있습니다. 또한 통합 쿼리 언어에 대한 언어 표준과 대화형 쿼리를 위한 시각적 인터페이스가 있습니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


스토리지 솔루션 설계

스토리지 솔루션을 설계할 때 주로 다음 두 가지 사항을 고려합니다.

(1) 스토리지 솔루션의 효율성이 높기 때문에 너무 복잡해서는 안 됩니다. 너무 복잡해도 그다지 높지 않을 것입니다.

(2) 서로 다른 두 가지 지식 그래프의 데이터 유형을 교묘하게 수용할 수 있어야 합니다.

그러므로 포인트 테이블과 엣지 테이블을 위한 수납 솔루션이 있습니다. 속성이라는 공통 포인트 테이블이 있습니다. 다른 포인트의 경우 에지 테이블도 다른 에지 테이블에서 상속됩니다. 다양한 유형의 포인트 테이블과 에지 테이블에 복사본이 있으므로 포인트 테이블과 에지 테이블 모음을 위한 스토리지 솔루션이 유지됩니다.

속성 그래프인 경우 라벨이 다른 포인트는 다른 포인트 테이블을 찾습니다. 예를 들어 교수는 교수 포인트 테이블을 찾습니다. 포인트의 속성은 포인트 테이블의 속성 열에 매핑됩니다. 에지 테이블의 경우에도 마찬가지이며, 작성자는 작성자의 에지 테이블에 매핑되고, 에지는 ID가 있는 에지 테이블의 행에 매핑됩니다. 시작 노드와 끝 노드.

이렇게 단순해 보이지만 실제로는 매우 다양한 방법을 통해 물리 계층에서 RDF 그래프와 속성 그래프를 통합할 수 있습니다. 그러나 실제 응용에서는 유형이 지정되지 않은 엔터티가 많이 있습니다. 이때 우리는 가장 가까운 유형의 테이블로 의미를 분류하는 방법을 채택합니다.


쿼리 처리 실습

저장 외에도 가장 중요한 것은 쿼리입니다. 의미론적 수준에서 작업을 정렬하고 SPARQL과 Cypher라는 두 쿼리 언어 간의 상호 운용성을 달성했습니다.

이 경우에는 grammarlexical이라는 두 가지 수준이 관련되며 두 수준의 구문 분석이 서로 충돌할 수 없습니다. 여기에는 키워드가 인용되어 있습니다. 예를 들어 SPARQL을 선택하면 SPARQL의 구문이 활성화됩니다. Cypher를 선택하면 충돌을 피하기 위해 Cypher의 구문이 활성화됩니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


우리는 또한 많은 쿼리 연산자를 구현했습니다.

(1) 하위 그래프 매칭 쿼리, 모든 작곡가와 그들의 작곡, 작곡가의 생일을 쿼리하는 것이 전형적인 하위 그래프 매칭 문제입니다. 속성 그래프와 RDF 그래프로 구분할 수 있으며, 일반적인 처리 흐름도 동일합니다. 예를 들어 조인 연결 리스트에 해당 포인트를 추가한 후, 속성 열에 선택 연산을 추가하고, 헤드 포인트 패턴과 테일 포인트 패턴에 해당하는 포인트 테이블 간의 연결에 제약을 가하는 방식이다. RDF 그래프는 에지 테이블의 시작점과 끝점에 대해 중요한 작업을 수행하며 결국 변수에 투영 제약 조건을 추가하고 최종 결과가 출력됩니다.

하위 그래프 일치 쿼리는 가변 형식 제한, 논리 연산자, 집계 및 산술 연산자를 지원하는 FILTER 함수와 같은 일부 내장 함수도 지원합니다. 물론 이 부분도 지속적으로 확장될 수 있습니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


(2) 기존 관계형 데이터베이스에서는 사용할 수 없는 탐색 쿼리입니다. 아래 그림의 왼쪽은 작은 소셜 네트워크 그래프입니다. 이것은 지식이 단방향임을 알 수 있습니다. Tom은 Pat을 알고 있지만 Pat은 Tom을 모릅니다. 탐색 쿼리에서 2홉 쿼리를 수행하면 Tom을 아는 사람이 누구인지 확인합니다. 점프가 0이면 Tom은 자신을 알고 있습니다. 첫 번째 홉은 Tom이 Pat을 알고 Tom이 Summer를 아는 것입니다. 두 번째 점프는 Tom이 Pat을 알게 된 다음 Nikki를 알게 되고 다시 Tom을 알게 되는 것입니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


(3) 키워드 쿼리, 여기에 tsVector와 tsquery라는 두 가지 예가 있습니다. 하나는 문서를 용어 목록으로 변환하는 것이고, 다른 하나는 지정된 단어나 구문이 벡터에 존재하는지 쿼리하는 것입니다. 지식 그래프의 텍스트가 상대적으로 길고 속성이 상대적으로 긴 경우, 이 기능을 사용하여 키워드 검색 기능을 제공할 수 있어 매우 유용합니다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


(4) 분석 쿼리 에는 최단 경로 , Pagerank 등과 같은 그래프 데이터베이스에 대한 고유한 쿼리가 있습니다. 모두 그래프 기반 쿼리 연산자입니다. 그래프 데이터베이스에서 구현에 사용됩니다. 예를 들어 Tom에서 Nikki까지의 최단 경로가 무엇인지 확인하기 위해 Cypher를 통해 최단 경로 연산자를 구현하고 최단 경로를 출력하여 결과를 구하게 된다.

Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법


위에서 언급한 기능 외에도 Cypher 및 SPARQL의 쿼리 언어를 입력하여 위에서 볼 수 있는 시각적 직관적 다이어그램을 얻을 수 있는 시각적 인터랙티브 스튜디오도 구현했습니다. 그래프의 유지 관리, 적용을 위해 그래프에서 많은 상호 작용을 수행할 수 있으며 앞으로는 더 많은 연산자, 그래프 쿼리 및 그래프 검색을 추가하여 더 많은 적용 방향과 시나리오를 실현할 것입니다.

마지막으로 누구나 OpenGauss Graph 커뮤니티를 방문할 수 있으며, OpenGauss Graph에 관심이 있는 친구들도 새로운 기여자로 커뮤니티에 참여하여 OpenGauss Graph 커뮤니티를 함께 구축할 수 있습니다.


손님 소개

Wang Lin, 공학박사, OpenGauss 그래프 데이터베이스 커뮤니티 유지관리자, Taifan Technology의 CTO, 수석 엔지니어, 중국 컴퓨터 협회 부회장 YOCSEF Tianjin 21-22, CCF 정보시스템 특별위원회 집행위원, 천진 131 인재 프로젝트에 선정.

위 내용은 Taifan Technology의 Wang Lin: 그래프 데이터베이스 - 인지 지능을 향한 새로운 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제