>기술 주변기기 >일체 포함 >Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

王林
王林앞으로
2023-05-29 19:28:041423검색

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

1. 전자상거래 리스크 관리 시나리오에서의 그래프 알고리즘 소개

먼저 알리바바 전자상거래의 리스크 특성과 ​​그래프 알고리즘의 적용 이력 및 현황을 간략하게 설명하겠습니다.

1. Alibaba 전자상거래 위험 특성

Alibaba 전자상거래 위험의 주요 특성: 대립 및 순열 및 조합 복잡성.

위험은 대립적이어야 하며 동시에 Alibaba 전자상거래의 위험도 순열과 조합이 복잡합니다. 위험 식별은 주로 X(데이터)를 사용하여 Y(위험)를 예측합니다: P(Y|X). Alibaba 전자상거래에서는 위험 특성이 다릅니다.

② 계정, 제품, 판촉 등 다양한 비즈니스 시나리오가 있으며 비즈니스 반복 및 혁신으로 인해 새로운 위험이 발생합니다. -- PC, H5, APP 등 각 종단을 예방하고 통제해야 합니다.

4 다양한 데이터 소스에는 다양한 방식으로 데이터를 처리하고 통합하는 기능이 필요합니다.

동시에 Y도 매우 복잡하며 주로 세 가지 측면에 반영됩니다. 첫 번째는 일반적인 콘텐츠 위험, 행동 위험 등이 있다는 것입니다. 두 번째는 이러한 위험이 등록, 도난 및 제품 콘텐츠와 관련되어 있다는 것입니다. 세 번째로 한 가지 유형의 위험이 더 잘 예방되면 위험이 이전됩니다. 범죄를 저지르는 데 드는 비용이 높으면 다른 위험으로 전이되거나 새로운 위험이 발생합니다.

따라서 전체 위험 예방 및 통제는 복잡성의 순열과 조합으로 인해 매우 복잡합니다. Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

2. 그래프 알고리즘의 중요성

그래프 알고리즘은 위험 식별 모델의 대응 능력을 향상시킬 수 있습니다. 플랫폼에서 일어나는 대부분의 "나쁜 일"은 소수의 사람들에 의해서만 이루어집니다. "나쁜 놈들"은 많은 조끼를 가지고 있습니다. 우리는 "관계"를 통해 단서를 찾아 사전에 식별하고 처리할 수 있습니다. 예를 들어, 아래 사진의 노란색 점은 비정상적인 행위를 하는 사용자라고 가정할 때, 자신의 행위만으로는 사기 사용자인지 판단하기 어렵지만, 나머지 3명의 사기 사용자를 분석하면 분석이 가능합니다. 그 사람(검은색 점)과 연결되어 그가 사기 사용자인지 판단합니다. 동시에 이 4개의 계정과 밀접한 관련이 있는 계정을 모두 찾아냈고, 이들 계정을 미리 일괄 처리하면 악행의 대가가 늘어날 수 있음을 확인했습니다.

또한 이종 그래프는 각 양식과 각 위험 개체의 데이터를 자연스럽고 전역적으로 통합하고 서로 다른 개체의 표현을 계산한 다음 다양한 위험을 식별하여 순열을 처리하고

의 복잡성 3. 그래프 알고리즘의 역사와 현재 상황

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

알리바바 전자상거래 위험 통제에서는 그래프 알고리즘의 중요성을 바탕으로 2013년부터 그래프 알고리즘을 사용해 왔습니다.

처음에는 그래프 알고리즘을 사용하여 계정 라이브러리 전체의 관계 네트워크를 구축했습니다. 이러한 관계형 데이터는 사기, 계정 보안, 부정행위 방지, 위조 방지 등 모든 위험 예방 및 통제 시나리오에 필요한 기본 데이터이며, 주로 사용되는 데이터에는 기기 정보, 휴대폰 번호 등의 미디어 데이터가 포함됩니다. 주로 계정 간의 상관관계, 관계 유형, 그룹 식별 등을 설명합니다. 이 관계 네트워크를 위해 생산부터 적용까지 폐쇄 루프 피드백 채널이 구축되었습니다.

기본 관계형 데이터가 많기 때문에 관계형 데이터의 집계, 정리, 그래프 계산 및 저장에 드는 전체 비용이 매우 높고, 나중에 지속적으로 업데이트해야 하므로 관계형 네트워크 구축 비용이 매우 높습니다. 그러나 우리의 많은 위험 모델과 전략은 이러한 관계 네트워크에 의존하기 때문에 여전히 가치가 있습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

그래프 신경망에 관해서는 2016년부터 응용을 탐색하기 시작했습니다. 당시에는 여전히 GGL(Geometric Graph Learning, 기하학 그래프 학습)이라고 불렸습니다. 직접 사용할 수 있는 그래프 신경망 네트워크 알고리즘 프레임워크가 없으므로 C++에서 GGL 알고리즘 프레임워크를 구현했습니다. 2018년에는 Alibaba Computing Platform에서 제공하는 Graph Learn으로 이동했습니다. 이 프레임워크는 오픈 소스이기도 합니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

다양한 전자상거래 위험 관리 시나리오가 있으며, 특히 그래프 알고리즘 검증 단계에서 적절한 시나리오를 선택하는 것이 중요합니다. 위험 시나리오에서 큰 비중을 차지하는 행동 위험에 대한 '판단 기준'은 직관적이지 않습니다. 잘못된 재현인지 이득 재현인지 여부는 모델 조정과 온라인 효과 판단에 영향을 미칩니다. 이에 반해 스팸, 모욕 등 콘텐츠 보안 시나리오는 '직관적인 판단 기준'을 갖춘 시나리오로 그래프 알고리즘의 유효성을 검증하는 데 더 적합하다. 따라서 먼저 콘텐츠 보안 시나리오에서 알고리즘을 탐색하고 그 유효성을 검증하며 모범 사례를 축적한 후 이를 행동 위험 시나리오에 적용합니다.

지금까지 알리바바 전자상거래의 다양한 리스크 사업에는 그래프 알고리즘이 사용되고 있습니다. 전체 그래프 알고리즘 적용 프레임워크는 아래와 같습니다. 먼저, 상위 레이어의 적용을 용이하게 하기 위해 다양한 관계형 데이터를 수집하고 정리하기 위해 하단에 관계형 데이터 레이어를 유지합니다. 다음 계층은 관계형 데이터 계층과 알고리즘 계층을 사용하여 특정 위험의 특성과 결합된 최상위 비즈니스 계층의 다양한 위험 시나리오를 수평적으로 지원하는 계정 관계 네트워크를 구축합니다. , 우리는 이러한 그래프 알고리즘과 관계형 데이터를 사용하여 다양한 비즈니스 위험을 식별하는 그래프 모델을 구축합니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

다음 공유에서는 주로 "대화형 콘텐츠 위험", "상품 판매 금지 및 제한", "모조품 관리"의 세 가지 유형의 위험 응용 프로그램에 대한 일부 그래프 알고리즘을 소개합니다.

2. 대화형 콘텐츠 위험 제어를 위한 그래프 알고리즘

Alibaba 전자상거래 플랫폼에는 제품 평가, 댓글, 모두에게 질문하기는 물론 모바일 Taobao 쇼핑, Xianyu 커뮤니티, 다음은 Xianyu 메시지의 스팸 광고 식별을 예로 들어 콘텐츠 위험 제어 그래프 알고리즘을 소개합니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

아르바이트, 허위주문, 다이어트 약 판매 등 시안위 APP 내 제품 댓글에 '스팸 광고' 등의 콘텐츠 위험을 쉽게 확인할 수 있습니다. , 그리고 그들은 매우 대립적입니다. 예를 들어 위의 "나를 보세요, 형제"의 스크린샷에서 실제 광고는 텍스트 자체에 있는 것이 아니라 사용자의 홈페이지에 있습니다.

Xianyu 메시지에서 스팸 광고 식별은 그래프 신경망 알고리즘의 첫 번째 적용 시나리오입니다. 줄여서 이 식별 모델을 GAS라고 합니다. 전체 모델은 이종 그래프와 동종 그래프로 구성됩니다. 이종 그래프는 제품, 댓글, 사용자를 포함한 각 노드의 로컬 표현을 학습합니다. 동종 그래프는 서로 다른 댓글의 전역 표현을 학습하는 댓글 그래프입니다. 마지막으로 이진 분류 모델 훈련을 위해 이 네 가지 표현을 융합합니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

전체 교육 데이터 세트에는 3kw 이상의 댓글, 2kw 이상의 제품, 900만 명 이상의 사용자가 포함되어 있으며 온라인에 접속한 후 원래 MLP 모델보다 30% 더 많은 위험을 회수했습니다. 또한 어블레이션 실험을 통해 글로벌 정보 추가도 크게 향상되었음을 확인했습니다. 이는 스팸 광고 자체의 특성 때문입니다. 더 나은 수익을 얻으려면 많은 수의 전달이 필요합니다. 이 연구는 최종적으로 편집되어 논문[1]으로 출판되었으며 CIKM2019에서 최우수 응용 연구 논문을 수상했습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

3. 제품 함량 리스크 관리를 위한 그래프 알고리즘

여기에서는 주로 제품 함량 리스크 관리를 위한 두 가지 유형의 그래프 알고리즘을 소개합니다. 하나는 제품 그래프 구조 학습이고 다른 하나는 제품 그래프 구조와 전문 지식 그래프의 통합.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

상품 위험 관리는 주로 "금지 및 제한 판매" 위험을 통제하는 것입니다. 위조, 통제된 의료 장비 등

제품 데이터는 다중 데이터 스트림, 다중 채널, 다중 모드입니다.

① 다중 데이터 스트림: 제목 , 설명, 메인 이미지, 자막 사진, 상세 사진, SKU

② 다중 채널: 텍스트의 사운드, 모양 및 의미, 사진의 RGB; 3 멀티모달:

텍스트, 사진, 메타 정보(가격, 판매량). 동시에 제품 내용의 리스크도 복잡하고 다양하며 치열한 경쟁을 벌이고 있습니다. 예를 들어 위 사진에서는 구슬을 파는 것처럼 보이지만 실제로는 상아를 파는 것입니다.

제품 콘텐츠 위험 관리 맵 알고리즘에는 크게 두 가지 유형이 있습니다. 하나는 딥 모델을 사용하여 제품 신경망을 구축하고 다중 모드 융합을 통해 다중 작업 학습을 수행하는 다중 모드 융합 모델입니다. 다른 하나는 이질적인 그래프를 활용하여 제품과 제품, 제품과 판매자, 판매자와 판매자 간의 관계를 확립하고 글로벌 정보의 융합 학습을 수행하여 위험 재현성을 향상시키는 것입니다.

1. 제품 그래프의 그래프 구조 학습

GCN의 본질은 이웃 특징의 특징 평활화입니다. 따라서 그래프 신경망 학습에는 그래프 구조의 품질에 대한 특정 요구 사항이 있습니다. 좋은 네트워크 그래프는 조밀하고 동질성 비율이 높습니다. 그러나 위험 상품 그래프는 희박하고 동질성 비율이 상대적으로 낮기 때문에(0.15, 공개 데이터 세트에 대한 통계에서는 0.6 이상이 더 나은 것으로 나타났습니다) 그래프 구조를 학습해야 합니다.

아래 그림의 오른쪽 프레임 다이어그램과 같이 제품 그래프에는 세 가지 유형의 간선이 있으며 이는 세 가지 유형의 그래프를 구성합니다. 한 유형은 회사에서 판매하는 두 제품입니다. 동일한 판매자 및 동일한 판매자 그래프, 두 번째 유형은 2개입니다. 동일 브라우징 이미지는 동일한 소비자가 해당 상품을 조회했음을 나타냅니다. 세 번째 카테고리는 두 상품의 판매자가 밀접한 관련이 있는 연관 판매자 이미지입니다. Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

제품 그래프 구조 학습의 핵심은 Edge를 추가하고 삭제하는 과정입니다. 먼저 KNN Graph를 사용하여 Product Embedding을 기반으로 KNN 그래프를 구축한 다음 위의 4가지 유형의 Edge와 Product Embedding을 HGT에 넣어 제품의 새 임베딩을 학습하고 주의를 적용합니다. 값이 낮은 가장자리는 노이즈로 삭제되고, 새 제품 임베딩을 사용하여 KNN 그래프를 업데이트할 수 있습니다. 이 왕복 반복은 손실이 수렴될 때까지 계속됩니다. 실제 데이터에서의 실습은 이 그래프 구조 학습 프레임워크가 동종 그래프/이종 그래프에 비해 SOTA 결과를 달성한다는 것을 보여줍니다.

2. 그래프 컴퓨팅과 리스크 지식 그래프의 통합

상품 그래프 알고리즘의 개선 알고리즘은 그래프 컴퓨팅과 리스크 지식 그래프의 융합입니다. 일부 상품 위험은 상식적으로 판단하기 어렵고 특정 전문 분야 지식의 조합이 필요합니다. 따라서 모델 식별 및 수동 검토를 지원하기 위해 이러한 특정 위험 영역 지식 포인트에 대한 특정 지식 그래프가 구성되었습니다.

예를 들어 아래 사진의 왼쪽에 보이는 두 제품은 단순한 액세서리를 판매하는 것처럼 보이지만 실제로는 티베트 영양의 뿔을 판매하고 있는 국가 1급 보호동물입니다. 관련 제품은 판매가 금지되어 있으므로 티베트 영양에 대한 지식과 대조하여 해당 제품의 위험성을 식별할 수 있습니다. 융합 알고리즘 프레임워크는 아래 그림의 오른쪽에 표시됩니다. 모델 목표는 후보 제품과 위험 지식 포인트가 일치하는지 확인하는 것입니다. 항목 p는 제품의 그래픽 표현이고 Risk-Point R은 지식 포인트의 표현이며 엔터티 인식, 엔터티 연결 및 관계 추출을 통해 제품의 하위 그래프와 지식 포인트를 얻은 후 GNN을 사용합니다. 하위 그래프의 표현을 계산하고 마지막으로 표현을 사용합니다. 위험 분류 및 식별을 수행합니다. 그 중 CPR은 제품 표현과 지식 포인트 표현을 융합한 것으로, 일부 글로벌 정보를 학습하기 위해 그래프 표현을 안내하는 데 주로 사용됩니다. 실습에 따르면 제품 다중 모드 인식과 비교하여 위험 지식 그래프를 추가하면 롱테일 위험에 대한 회상이 10포인트 이상 향상되는 것으로 나타났습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

이를 바탕으로 글로벌 제품 맵도 소개하려고 노력했습니다. 제품의 내용이 지식맵과 직접적으로 연관되어 있고 리스크를 식별할 수 없는 경우, 제품과 제품 간의 연관성을 추가로 도입하여 판단에 도움을 줄 수 있습니다. 예를 들어 아래 그림에서 "또한 있습니다. cubs"는 "붉은배다람쥐"에 대한 강한 지식이 없습니다. 일치관계는 있지만, 이 상품은 판매자의 다른 상품 "붉은배"와 "붉은배다람쥐"에 대한 지식이 일치하므로, 해당 상품은 실제로 붉은배다람쥐(2차보호동물, 판매금지)를 판매하고 있습니다. 실습에 따르면 지식 추론을 수행할 때 전체 대형 제품 그래프를 도입하면 롱테일 위험 회상이 3% 이상 증가할 수 있는 것으로 나타났습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

4. 동적 이종 그래프의 위험 제어 실습

앞서 소개한 그래프 알고리즘은 주로 정적 그래프 마이닝 응용 프로그램이지만 많은 위험 시나리오에는 동적 그래프의 위험 패턴이 있습니다.

예를 들어 모조품을 판매하는 상인이 먼저 등록한 다음 대량의 제품을 일괄 출시하고 이를 과대광고하여 트래픽을 유도한 다음 빠르게 모조품을 판매합니다. 시간 차원의 그래프 구조는 위험 식별에 매우 중요하므로 동적 그래프는 그래프 알고리즘의 탐색 및 적용을 위한 핵심 방향이기도 합니다.

동적 그래프의 가장 큰 과제는 좋은 그래프 구조를 디자인하고 검색하는 방법입니다. 한편, 동적 그래프는 원래 이종 그래프를 기반으로 시간 차원을 도입합니다. 예를 들어 30개의 모멘트가 있으면 동적 그래프의 매개변수(정보량)가 이종 그래프의 30배가 되어 큰 이점을 제공합니다. 학습에 대한 압박감 반면, 위험의 적대적 특성으로 인해 동적 그래프는 매우 강력해야 합니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

1. 동적 그래프 자동 학습

이에 따라 Attention을 기반으로 하는 동적 GNN + AutoML을 제안하고 특정 매개변수 공간에서 최상의 모델 구조(DHGAS)를 선택합니다. 이 모델의 핵심은 아래 그림과 같이 자동 학습을 통해 모델 구조를 최적화하는 것입니다. 먼저 동적 그래프를 서로 다른 순간에 이종 그래프로 분해하고 서로 다른 순간과 서로 다른 노드에서 서로 다른 기능 공간을 설정하는 것이 바람직합니다. 제품 표현의 변화를 나타냅니다. 공간(N*T 유형, N: 노드 유형, T: 시간 공간), 정보 전파의 경로 공간(R*T)을 나타내기 위해 다양한 순간과 다양한 에지 유형에 대해 다양한 기능 공간도 설정됩니다. 유형, R: 에지 유형; T: 시간 및 공간), 마지막으로 노드와 이웃을 집계할 때 R*T*T 집계 방법이 있습니다(두 T는 에지 양쪽 끝에 있는 노드의 타임스탬프입니다.

분명히 전체 검색 공간은 엄청납니다. 모델이 자동으로 최적의 네트워크 아키텍처를 검색할 수 있도록 매개변수 공간을 제한하고 자동 기계 학습 기술을 사용하여 슈퍼넷을 구축하려고 합니다. 구체적인 방법: N*T의 기능 공간 수를 K_N으로, R*T의 기능 공간 데이터를 K_R로, R*T*T의 모듈 길이를 K_Lo로 제한합니다. 예를 들어 N=6, T=30입니다. , 이론은 N*T=180 함수 공간이고 실제 한계는 K_N=10입니다.

이 알고리즘은 현재 "위조 판매자 식별", "상품 판매가 제한된 악의적인 판매자 식별"과 같은 시나리오에 구현되었으며 업계의 주류 알고리즘과 비교하여 SOTA 결과를 얻었습니다. 논문 [2]를 참고하세요.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

2. 동적 그래프의 강력한 학습

위험의 대립적 특성으로 인해 동적 그래프는 강력한 견고성을 가져야 합니다. 핵심은 동적 그래프가 몇 가지 필수 사항을 배울 수 있기를 바랍니다. 패턴, 예를 들어 아래 그림의 하위 그래프 예시의 필수 패턴은 아이스크림 판매량의 증가가 익사자 수의 증가가 아니라 더워진 날씨 때문이라는 것입니다.

강력한 학습이 전자상거래 위험 제어 동적 그래프의 일부 분포 이동 문제를 해결할 수 있기를 바랍니다.

(1) 기능 이동 : 예를 들어 너무 많이 의존하는 경우 과거 위반 정보에 대해 이러한 유형의 기능은 새로 등록된 문제 회원을 리콜하는 데 적합하지 않습니다. 광고 회원은 매우 활동적인 일반 회원을 실수로 리콜하게 만듭니다.

(3) 시간 오프셋 : 악의적인 사용자는 예방 및 통제를 통해 명백한 행동 변화를 겪게 됩니다.

이와 관련하여 우리는 알고리즘 DIDA를 제안했습니다. 핵심 아이디어는 아래 그림과 같습니다. 동적 그래프를 학습할 때 주황색으로 표시되는 필수 패턴과 비필수 패턴으로 표시되는 두 가지 패턴을 학습합니다. by green. 필수 패턴의 손실(L) + 비필수 패턴 조합의 손실 분산(Ldo)을 모델이 학습한 최종 손실로 사용합니다. 비필수 패턴 조합의 손실 분산(Ldo)에 대한 설계 아이디어는 그림의 녹색 a3가 비필수 패턴이라고 가정하고 이 녹색 a3를 다음과 같은 다른 비필수 패턴으로 대체하는 것입니다. b3, c3 등은 모델의 손실(차별) 능력을 향상시켜야 함)에는 거의 영향을 미치지 않습니다. 따라서 필수적이지 않은 패턴의 손실 분산을 모델 학습에 추가하고 최종 예측 단계에서는 필수 패턴만 분류에 사용할 수 있습니다. 현재 이 알고리즘은 제품 콘텐츠 위험 제어 시나리오에 구현되었으며 논문[3]도 편집되었습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습 5. ICDM2022 공모전: 대규모 전자상거래 그래프에서 위험상품 탐지

"ICDM2022 공모전: 대규모 전자상거래 그래프에서 위험상품 탐지"는 저희가 진행하는 알고리즘 대회입니다. 올해 주최된 에서 제공되는 데이터는 실제 장면의 둔감화된 데이터입니다. 마지막으로 제출된 기술 코드와 보고서에서도 영감을 얻었습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

(1) 자기주도 사전훈련은 효과 향상에 큰 도움이 되지만, 적절한 자기주도 사전훈련을 선택하는 것이 필요합니다 task;

(2) GNN을 레이블 전파와 결합하면 상당한 개선을 가져올 수 있습니다. 이전 그래프 알고리즘 응용에서는 레이블 누출에 대한 우려로 인해 데이터의 이 부분이 삭제되었지만 실제 데이터에서 연습한 후에는 분명하지 않다는 사실을 발견했습니다. 그 이유는 현재 그래프 네트워크가 정보 융합만 달성했지만 아직 추론을 달성하지 못했거나 추론 기능이 약한 것으로 추측됩니다.

(3) 일반적으로 디커플링 깊이와 레이어 수가 향상되었으며 한 번 전송되고 동시에 여러 번 집계됩니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

6. 그래프 알고리즘 구현 방법 요약 및 전망

저희의 경험을 바탕으로 다음과 같은 그래프 알고리즘 구현 방법을 정리합니다.

(1) 그래프 알고리즘 프레임워크/플랫폼 : 기술의 재사용성을 향상시키기 위한 기술과 Best Practice를 축적한 그래프 알고리즘 프레임워크가 있어야 합니다.

(2) 반자동 모델링: 모델링의 효율성을 높이기 위해 데이터 수준에서는 기본 관계형 미디어 데이터를 더 잘 정리하고 요약하며, 모델링 수준에서는 일부 구성 요소를 제공할 수 있습니다. (MetaPath/MetaGraph 선택 구성 요소, 그래프 샘플링 구성 요소, 벡터 검색 구성 요소 등)을 사용하여 모델링 효율성을 향상시킵니다.

(3) 자동 호출: 입력 샘플에만 의존하는 그래프 알고리즘이나 그래프 모델을 자동으로 호출할 수 있으므로 그래프 모델을 이해할 필요가 없으므로 익숙하지 않은 다른 위험 관리 학생들에게도 편리합니다. 갱 식별, 제품 복구, 위험 사용자 복구 등과 같은 모델 사용을 최적화하는 그래프 알고리즘.

(4) 생산(자체 감독) 그래프 표현: 원래 모델링 방법에 영향을 주지 않고 모델에 대한 별도의 모달 입력으로 사용되어 그래프의 적용 시나리오를 크게 향상시킵니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

후속 작업 전망:

(1) 대규모 그래프 자기 지도 표현 학습. 우리는 수천 개의 위험 모델을 보유하고 있으며 그 중 다수는 위의 그래프 알고리즘을 적용하지 않습니다. 따라서 다음 단계는 대규모 그래프 자체 감독 표현을 수행하여 그래프 기능의 적용 범위를 확장하고 비즈니스 결과를 개선하는 것입니다. 이 작업에는 엔지니어링과 알고리즘에 대한 이중 과제가 있습니다. 첫째, 엔지니어링 측면에서 대규모 학습을 위한 최소 수십억 개의 노드와 수백억 개의 에지가 있습니다. 둘째, 알고리즘 측면에서 그래프 표현은 공통적으로만 다루어서는 안 됩니다. 관계 표현을 사용하기 위해서는 활용도가 높고 다양한 시나리오에 적용할 수 있는 고차 그래프 구조의 특성도 배워야 합니다.

(2) 특정 위험 제어 시나리오에서 그래프의 추론 기능을 탐색합니다. 현재 그래프 알고리즘은 지식의 융합에 더 중점을 두고 있으며 추론 기능은 상대적으로 약하고 높은 위험 직면에 대처할 수 없습니다. . 객관적으로 우리 모델에는 강력한 지능이 필요하므로 그래프의 추론 능력은 매우 중요합니다. 현재 Xianyu 커뮤니티의 풍부한 대화형 시나리오와 콘텐츠를 활용하여 알고리즘을 탐색할 계획입니다.

(3) 주파수 영역 연구 및 동적 이종 그래프의 해석 가능성에 대한 추가 탐구 및 구현. 주파수 영역 연구의 목적은 동적 그래프의 그래프 구조 변화에 대해 더 자세히 알아보는 것입니다. 해석성은 알고리즘이 실제로 필수 특성을 학습했는지 이해하는 데 도움이 되며, 한편으로는 알고리즘을 개선하는 데 도움이 되고, 다른 한편으로는 응용 프로그램 구현을 위해 경영학도에게 더 잘 제공될 수도 있습니다.

Alibaba 위험 관리 시스템의 그래프 알고리즘 실습

위 탐구 방향, 특히 그래프 추론 방향에 대해서도 학문적 협력을 구하고 있습니다. 동시에 그래프 알고리즘에 관심 있는 학생도 모집하고 있습니다.

7. 참조

1. 그래프 컨볼루셔널 네트워크를 사용한 스팸 검토 감지. 2019년 최우수 응용 연구 논문. 동적 이종 그래프 주의 신경 아키텍처 검색. .

3. 시공간 분포 변화에 따른 동적 그래프 신경망.

8. 질문 및 답변 세션

Q1: 다른 분야의 그래프 표현과 비교하여 위험 관리 시나리오의 그래프 표현의 특별한 과제는 무엇입니까?

A1: 세 가지 주요 과제는 다음과 같습니다. 첫째, 그래프 구조가 열악하고 동질성 비율이 낮습니다. 둘째, 우리 시나리오, 특히 동적 그래프에서 그래프의 견고성은 여전히 ​​매우 낮습니다. 심각하게 또 다른 문제가 있습니다. 블랙 샘플의 위험 농도는 1:10 또는 1:20을 의미하지 않습니다. 따라서 일부 위험 농도는 1:1w+를 초과합니다. 극도로 불균형한 문제를 해결해야 합니다.

Q2: 현재 그래프 연합 학습의 알고리즘 모델은 무엇입니까? 업계에 성숙한 솔루션이 있나요? 그래프 연합 학습에 대한 적용이나 고려 사항이 있나요?

A2: 우리는 여전히 전자상거래 시나리오에서 주로 이를 사용합니다. 물론 일부 비전자상거래 비즈니스도 있지만 이러한 데이터는 우리 소유이므로 여전히 위험 제어에 직접 사용할 수 있습니다. 지금은 연합학습을 아직 사용하지 않고 있지만, 정보보안을 위해 데이터를 잘라내고 분리하고 있기 때문에 나중에 연합학습을 사용해야 할 것이다. 우리가 탐구해야 할 적용 방향.

위 내용은 Alibaba 위험 관리 시스템의 그래프 알고리즘 실습의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제