>  기사  >  기술 주변기기  >  HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파

HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파

WBOY
WBOY앞으로
2024-05-09 12:01:02317검색

그래프 학습 분야의 데이터 부족 문제가 새로운 트릭으로 해결되었습니다!

OpenGraph는 다양한 그래프 데이터세트에 대한 제로샷 예측을 위해 특별히 설계된 기본 그래프 기반 모델입니다.

홍콩 빅데이터 인텔리전스 연구소 소장 Chao Huang 팀도 새로운 작업에 대한 모델의 적응성을 향상시키기 위해 모델에 대한 개선 및 조정 기술을 제안했습니다.

현재 이 작품은 GitHub에 업로드되어 있습니다.

데이터 증대 기술을 소개합니다. 이 작업에서는 주로 그래픽 모델의 일반화 능력을 향상시키는 심층 전략을 탐구합니다(특히 훈련 데이터와 테스트 데이터 간에 상당한 차이가 있는 경우).

OpenGraph는 새로운 데이터의 제로 샘플 예측을 달성하기 위해 전파 예측을 통해 순방향 전파를 수행하는 일반 그래프 구조 모델입니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

목표를 달성하기 위해 팀은 다음 3가지 과제를 해결했습니다.

  • 데이터 세트 간의 토큰 차이점: 서로 다른 그래프 데이터 세트에는 서로 다른 그래프 토큰 세트가 있는 경우가 많으며 이를 수행하기 위한 모델이 필요합니다. 데이터 세트를 교차할 수 있습니다. 예측을 합니다.
  • 노드 관계 모델링: 일반 그래프 모델을 구축할 때 모델의 확장성 및 효율성과 관련된 노드 관계를 효과적으로 모델링하는 것이 중요합니다.
  • 데이터 희소성: 데이터 수집 문제에 직면하여 대규모 언어 모델을 통해 데이터 향상을 수행하여 복잡한 그래프 구조 관계를 시뮬레이션하고 모델 학습 품질을 향상시킵니다.

OpenGraph는 토폴로지 인식 BERT Tokenizer 및 앵커 기반 그래프 변환기와 같은 일련의 혁신적인 방법을 통해 위의 문제를 효과적으로 해결합니다. 여러 데이터 세트에 대한 테스트 결과는 모델의 뛰어난 일반화 능력을 입증하며 모델의 색상 일반화 능력을 효과적으로 평가할 수 있습니다.

OpenGraph 모델

OpenGraph 모델 아키텍처는 주로 3가지 핵심 부분으로 구성됩니다.

  • Unified graph Tokenizer.
  • 확장 가능한 그래프 변환기.
  • 대형 언어 모델 기반 지식 증류 기술.

먼저 통합 그래프 Tokenizer에 대해 이야기해 보겠습니다.

다양한 데이터 세트의 노드와 에지 차이에 적응하기 위해 팀은 그래프 데이터를 토큰 시퀀스로 정규화하는 통합 그래프 토크나이저를 개발했습니다.

이 프로세스에는 고차 인접 행렬 평활화 및 토폴로지 인식 매핑이 포함됩니다.

고차 인접 행렬 평활화는 인접 행렬의 고차 전력을 사용하여 희소 연결 문제를 해결하는 반면, 토폴로지 인식 매핑은 인접 행렬을 노드 시퀀스로 변환하고 빠른 특이값 분해(SVD)를 사용하여 최소화합니다. 정보 손실, 더 많은 그래프 구조 정보 유지.

두 번째는 확장 가능한 그래프 트랜스포머입니다.

토큰화 후 OpenGraph는 Transformer 아키텍처를 사용하여 노드 간의 종속성을 시뮬레이션하고 주로 다음 기술을 사용하여 모델 성능과 효율성을 최적화합니다.

첫째, 토큰 시퀀스 샘플링은 샘플링 기술을 사용하여 모델에 필요한 관계 수를 줄입니다. 처리함으로써 시간과 공간의 복잡성을 줄입니다.

두 번째는 앵커 샘플링의 Self-Attention 메커니즘입니다. 이 방법은 학습 노드 간의 단계별 정보 전달을 통해 계산 복잡도를 더욱 줄이고 모델의 훈련 효율성과 안정성을 효과적으로 향상시킵니다.

마지막 단계는 대규모 언어 모델의 지식 증류입니다.

일반 그래프 모델을 훈련할 때 직면하는 데이터 개인 정보 보호 및 카테고리 다양성 문제를 해결하기 위해 팀에서는 LLM(대형 언어 모델)의 지식과 이해 기능에서 영감을 얻었으며 LLM을 사용하여 다양한 그래프 구조 데이터를 생성했습니다.

이 데이터 향상 메커니즘은 실제 그래프의 특성을 시뮬레이션하여 데이터의 품질과 실용성을 효과적으로 향상시킵니다.

팀은 먼저 특정 애플리케이션에 적합한 노드 세트를 생성하며, 각 노드에는 에지 생성을 위한 텍스트 설명이 있습니다.

전자상거래 플랫폼과 같은 대규모 노드 집합에 직면했을 때 연구자들은 노드를 보다 구체적인 하위 범주로 세분화하여 이를 처리합니다.

예를 들어 "전자 제품"부터 특정 "휴대폰", "노트북" 등에 이르기까지 실제 인스턴스에 가깝도록 노드가 다듬어질 때까지 이 프로세스가 반복됩니다.

프롬프트 트리 알고리즘은 트리 구조에 따라 노드를 세분화하고 더 자세한 엔터티를 생성합니다.

"제품"과 같은 일반적인 카테고리에서 시작하여 점차적으로 특정 하위 카테고리로 세분화되어 최종적으로 노드 트리를 형성합니다.

에지 생성의 경우 연구자들은 Gibbs 샘플링을 사용하여 생성된 노드 집합을 기반으로 에지를 형성합니다.

계산 부담을 줄이기 위해 LLM을 통해 가능한 모든 가장자리를 직접 탐색하지 않고 먼저 LLM을 사용하여 노드 간의 텍스트 유사성을 계산한 다음 간단한 알고리즘을 사용하여 노드 관계를 결정합니다.

이를 바탕으로 팀은 몇 가지 기술적 조정을 도입했습니다.

  • 동적 확률 정규화: 동적 조정을 통해 유사성을 샘플링에 더 적합한 확률 범위로 매핑합니다.
  • 노드 지역성: 지역성 개념을 도입하고 노드의 로컬 하위 집합 간의 연결만 설정하여 실제 세계에서 네트워크 지역성을 시뮬레이션합니다.
  • 그래프 토폴로지 패턴 주입: 그래프 컨벌루션 네트워크를 사용하여 노드 표현을 수정하여 그래프 구조 특성에 더 잘 적응하고 분포 편차를 줄입니다.

위 단계를 통해 생성된 그래프 데이터가 풍부하고 다양할 뿐만 아니라 실제 세계의 연결 패턴 및 구조적 특성에 가깝도록 보장합니다.

실험 검증 및 성능 분석

이 실험은 LLM에서만 생성된 데이터 세트를 사용하여 OpenGraph 모델을 훈련하고 노드 분류 및 링크 예측 작업을 다루는 다양한 실제 시나리오 데이터 세트에서 테스트하는 데 중점을 두고 있다는 점에 유의해야 합니다.

실험 설계는 다음과 같습니다.

제로 샘플 설정.

보이지 않는 데이터에 대한 OpenGraph의 성능을 평가하기 위해 생성된 훈련 세트에서 모델을 훈련한 다음 완전히 다른 실제 테스트 세트에서 평가합니다. 이는 교육 및 테스트 데이터가 노드, 가장자리 및 기능에서 겹치지 않도록 보장합니다.

샘플 설정이 적습니다.

다양한 방법이 제로샷 예측을 효과적으로 수행하기 어렵다는 점을 고려하여 사전 훈련 데이터를 기준으로 기준 모델을 사전 훈련한 후 k-샷 샘플을 사용하여 미세 조정하는 방법을 소개합니다. .

2개 작업과 8개 테스트 세트에 대한 결과는 OpenGraph가 제로 샷 예측에서 기존 방법보다 훨씬 뛰어난 성능을 보인다는 것을 보여줍니다.

또한 기존의 사전 훈련된 모델은 교차 데이터 세트 작업에서 처음부터 훈련된 모델보다 성능이 떨어지는 경우가 있습니다.

그래프 Tokenizer 디자인의 영향에 대한 연구

동시에 팀에서는 Graph Tokenizer 디자인이 모델 성능에 어떤 영향을 미치는지 조사했습니다.

우선, 인접 행렬 스무딩(스무딩 차수 0)을 수행하지 않으면 성능이 크게 저하된다는 것이 실험을 통해 밝혀졌는데, 이는 스무딩의 필요성을 나타냅니다.

그런 다음 연구원들은 여러 가지 간단한 토폴로지 인식 대안을 시도했습니다. 즉, 데이터세트 전체에 걸쳐 원-핫 인코딩된 ID, 무작위 매핑, 노드 등급 기반 표현 등이 있습니다.

실험 결과에 따르면 이러한 대안의 성능은 이상적이지 않습니다.

구체적으로, 데이터 세트 전체에 걸친 ID 표현은 최악이고, 학위 기반 표현도 성능이 좋지 않은 반면, 무작위 매핑은 약간 더 좋지만 최적화된 토폴로지 인식 매핑에 비해 상당한 성능 격차가 있습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

데이터 생성 기술의 영향

팀에서는 LLM 기반 지식 증류 방법을 사용하여 생성된 데이터 세트와 여러 실제 데이터 세트를 포함하여 다양한 사전 훈련 데이터 세트가 OpenGraph 성능에 미치는 영향을 조사했습니다.

실험에서 비교한 사전 학습 데이터 세트에는 팀 생성 방식에서 특정 기술을 제거한 데이터 세트, 실제 데이터 세트 2개 (Yelp2018 및 Gowalla) 테스트 데이터 세트와 관련이 없는 데이터 1개 테스트 데이터로 설정 유사한 실제 데이터 세트 (ML-10M) 을 설정합니다.

실험 결과 생성된 데이터 세트는 모든 테스트 세트에서 좋은 성능을 보였으며, 3세대 기술을 제거하면 성능에 큰 영향을 미쳐 이러한 기술의 효율성을 검증했습니다.

테스트 세트와 관련이 없는 실제 데이터 세트 (예: Yelp 및 Gowalla) 로 훈련할 때 성능이 저하되는 경우가 있는데, 이는 서로 다른 데이터 세트 간의 분포 차이로 인해 발생할 수 있습니다.

ML-10M 데이터 세트는 ML-1M 및 ML-10M 과 같은 유사한 테스트 데이터 세트 에서 최고의 성능을 달성하여 학습 데이터 세트와 테스트 데이터 세트 간의 유사성의 중요성을 강조합니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

Transformer 샘플링 기술 연구

실험의 이 부분에서 연구팀은 그래프 Transformer 모듈에 사용된 두 가지 샘플링 기술인

토큰 시퀀스 샘플링(Seq)과 앵커 샘플링(Anc)을 탐색했습니다.

그들은 모델 성능에 대한 구체적인 영향을 평가하기 위해 이 두 가지 샘플링 방법에 대한 자세한 절제 실험을 수행했습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

실험 결과에 따르면 토큰 시퀀스 샘플링이든 앵커 포인트 샘플링이든 훈련 및 테스트 단계에서 모델의 공간 및 시간 복잡성을 효과적으로 줄일 수 있습니다. 이는 대규모 그래프 데이터를 처리하는 데 특히 중요하며 효율성을 크게 향상시킬 수 있습니다.

성능 관점에서 토큰 시퀀스 샘플링은 모델의 전반적인 성능에 긍정적인 영향을 미칩니다. 이 샘플링 전략은 주요 토큰을 선택하여 그래프 표현을 최적화함으로써 복잡한 그래프 구조를 처리하는 모델의 능력을 향상시킵니다.

반대로 ddi 데이터 세트에 대한 실험에서는 앵커 샘플링이 모델 성능에 부정적인 영향을 미칠 수 있음을 보여줍니다. 앵커 샘플링은 특정 노드를 앵커 포인트로 선택하여 그래프 구조를 단순화하지만, 이 방법은 일부 주요 그래프 구조 정보를 무시하여 모델의 정확도에 영향을 줄 수 있습니다.

요약하자면 두 샘플링 기법 모두 장점이 있지만 실제 적용에서는 특정 데이터 세트 및 작업 요구 사항을 기반으로 적절한 샘플링 전략을 신중하게 선택해야 합니다.

연구 결론

이 연구의 목표는 다양한 그래프 구조의 복잡한 토폴로지 패턴을 정확하게 식별하고 구문 분석할 수 있는 적응성이 뛰어난 프레임워크를 개발하는 것입니다.

연구원들은 제안된 모델의 기능을 완전히 활용하여 다양한 다운스트림 애플리케이션을 포함한 제로샷 그래프 학습 작업에서 모델의 일반화 능력을 크게 향상시키는 것을 목표로 합니다.

이 모델은 OpenGraph의 효율성과 견고성을 향상시키기 위해 확장 가능한 그래프 Transformer 아키텍처와 LLM 강화 데이터 증대 메커니즘을 지원하여 구축되었습니다.

팀은 여러 표준 데이터 세트에 대한 광범위한 테스트를 통해 모델의 탁월한 일반화 성능을 입증했습니다.

港大开源图基础大模型OpenGraph: 强泛化能力,前向传播预测全新数据

그래프 기반 모델을 구축하려는 초기 시도로서 향후 팀의 작업은 시끄러운 연결을 자동으로 식별하고 반사실적 학습을 수행하는 것을 포함하여 프레임워크의 자동화 기능을 향상시키는 데 중점을 둘 것으로 이해됩니다.

동시에 다양한 그래프 구조의 공통적이고 전달 가능한 패턴을 학습하고 추출하여 모델의 적용 범위와 효과를 더욱 홍보할 계획입니다.

참고링크:

[1] 논문: https://arxiv.org/pdf/2403.01121.pdf.

[2] 소스 코드 라이브러리: https://github.com/HKUDS/OpenGraph.

위 내용은 HKU의 대형 오픈소스 그래프 기본 모델 OpenGraph: 강력한 일반화 능력, 새로운 데이터 예측을 위한 순방향 전파의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제