현재 연구 패러다임에는 두 가지 주요 연구 방향이 있습니다.
Judea Pearl의 책 "The Book of Why – The New Science of Cause and Effect"에서 인지 사다리는 세 가지 수준으로 위치합니다.
우선 상관관계를 생성하는 네 가지 방법을 설명하겠습니다.
1 인과관계: 원인과 결과 사이에는 신뢰할 수 있고 추적 가능하며 긍정적인 의존성이 있습니다. . 연기 및 화재 경보기와 같은 관계는 인과적으로 관련되어 있습니다.
2. 교란 관계 : 키와 독서 능력이 관련될 수 있는지 여부, 나이 등 직접적으로 관찰할 수 없는 교란 변수가 포함되어 있습니다. 변수가 유사하므로 유효한 결론을 도출합니다.
3. 선택 편향 : 이는 본질적으로 외모와 재능의 관계를 탐구하는 것과 같은 버크슨의 역설입니다. 그룹에서는 외모와 재능이 함께 어울리지 않는다는 결론을 내릴 수도 있습니다. 인간을 통틀어 보면 외모와 재능 사이에는 인과관계가 없다.
4. 역인과관계: 즉, 원인과 결과의 역전입니다. 예를 들어, 통계에 따르면 인간은 결혼한 기간이 길어질수록 수명이 길어집니다. 그러나 반대로, 더 오래 살고 싶다면 일찍 결혼해야 한다고 말할 수는 없습니다.
교란 요인이 관찰 결과에 어떤 영향을 미치는지, 다음 두 가지 사례로 설명하겠습니다.
위 그림은 운동량과 콜레스테롤 수치의 관계를 설명합니다. 왼쪽 그림을 보면 운동량이 많을수록 콜레스테롤 수치가 높아진다는 결론을 내릴 수 있습니다. 그러나 연령층화를 추가하면 동일 연령층화 하에서 운동량이 많을수록 콜레스테롤 수치는 낮아진다. 또한, 나이가 들수록 콜레스테롤 수치는 점차 증가하므로 이러한 결론은 우리가 알고 있는 것과 일치합니다.
두 번째 예는 신용 시나리오입니다. 과거 통계를 보면, 주어진 한도(빌릴 수 있는 금액)가 높을수록 연체율이 낮아진다는 것을 알 수 있습니다. 그러나 금융 분야에서는 먼저 A 카드를 기준으로 차용인의 신용 자격을 판단합니다. 신용 자격이 더 좋으면 플랫폼에서 더 높은 한도를 부여하고 전체 연체율은 매우 낮습니다. 그러나 현지 무작위 실험에 따르면 동일한 신용 자격을 가진 사람들에게는 신용 한도 이동 곡선이 천천히 변하는 사람이 있을 것이고, 신용 한도 이후에 신용 한도 이동 위험이 더 높은 사람도 있을 것입니다. 증가하면 위험 증가도 더 커집니다.
위의 두 사례는 모델링에서 교란 요인을 무시하면 잘못된 결론 또는 심지어 반대되는 결론을 얻을 수 있음을 보여줍니다.
RCT 표본의 경우 ATE 지표를 평가하려면 그룹 빼기 또는 DID(차이의 차이)를 사용할 수 있습니다. CATE 지표를 평가하려면 향상 모델링을 사용할 수 있습니다. 일반적인 방법에는 메타학습기, 이중 기계 학습, 인과 숲 등이 있습니다. 여기서 주목해야 할 세 가지 필수 가정은 SUTVA, Unconfoundedness 및 Positivity입니다. 핵심 가정은 관찰되지 않은 교란 요인이 없다는 것입니다.
관찰표본만 있는 경우 치료->결과 간의 인과관계를 직접적으로 얻을 수는 없습니다. 공변량에서 치료까지의 백도어 경로를 차단하는 데 필요한 수단을 사용해야 합니다. 일반적인 방법으로는 도구변수 방법과 반사실적 표현 학습이 있습니다. 도구변수법은 특정 사업의 세부사항을 벗겨내고 사업변수의 인과관계도를 그려야 한다. 반사실적 표현 학습은 인과관계 평가를 위해 샘플을 유사한 공변량과 일치시키는 성숙한 기계 학습에 의존합니다.
다음으로 인과추론 프레임워크의 진화와 그 방법을 소개하겠습니다. 인과표상 학습으로 단계별로 전환합니다.
일반적인 향상 모델에는 Slearner, Tlearner, Xlearner가 포함됩니다.
여기서 Slearner는 개입 변수를 1차원 특징으로 처리합니다. 일반적인 나무 모델에서는 치료가 쉽게 압도되어 치료 효과 추정치가 더 작아진다는 점에 유의해야 합니다.
Tlearner는 치료를 이산화하고, 개입 변수를 그룹별로 모델링하고, 각 치료에 대한 예측 모델을 구축한 후 차이를 만듭니다. 표본 크기가 작을수록 추정 분산이 높아진다는 점에 유의하는 것이 중요합니다.
Xlearner 그룹 교차 모델링, 실험 그룹과 통제 그룹은 교차 계산되어 별도로 훈련됩니다. 이 방법은 S/T-learner의 장점을 결합한 것이지만, 모델 구조 오류가 더 많이 발생하고 매개변수 조정이 더 어렵다는 단점이 있습니다.
세 모델의 비교:
위 그림에서 가로축은 복합 인과효과, MSE의 추정오차, 세로축은 단순 인과관계 효과, 가로축과 세로축은 각각 두 개의 데이터를 나타냅니다. 녹색은 Slearner의 오류 분포를 나타내고, 갈색은 Tlearner의 오류 분포를 나타내며, 파란색은 Xlearner의 오류 분포를 나타냅니다.
임의의 표본 조건에서는 Xlearner가 복잡한 인과 효과 추정과 단순한 인과 효과 추정에 더 좋습니다. Slearner는 복잡한 인과 효과 추정에 상대적으로 열악하고 단순 인과 효과 추정에 더 좋습니다. 반대로 Tlearner는 Slearner와 동일합니다.
임의의 샘플이 있는 경우 X에서 T까지의 화살표를 제거할 수 있습니다. 관찰 모델링으로 전환한 후에는 X에서 T로의 화살표를 제거할 수 없습니다. 치료와 결과는 동시에 혼란 요인의 영향을 받습니다. 이때 일부 탈분극 처리가 수행될 수 있습니다. 예를 들어 DML(Double Machine Learning) 방식은 2단계 모델링을 수행합니다. 첫 번째 단계에서 X는 연령, 성별 등 사용자 고유의 표현 특성입니다. 예를 들어, 혼란스러운 변수에는 특정 그룹의 사람들을 선별하려는 역사적 노력이 포함될 수 있습니다. 두 번째 단계에서는 이전 단계의 계산 결과의 오류를 모델링하는데, 여기에 CATE의 추정치가 나와 있습니다.
랜덤 데이터에서 관측 데이터까지 세 가지 처리 방법이 있습니다.
(1) 무작위 실험을 수행하지만 비즈니스 비용이 더 높습니다.
(2) 도구 변수 찾기; , 일반적으로 상대적으로 어렵습니다.
(3) 모든 교란 요인이 관찰되었다고 가정하고 DML, 표현 학습 및 기타 방법을 사용하여 유사한 샘플을 일치시킵니다.
반사실적 학습의 핵심 아이디어는 다양한 처리에 따라 특성 분포의 균형을 맞추는 것입니다.
두 가지 핵심 질문이 있습니다.
1. 훈련 샘플의 가중치를 조정하는 방법은 무엇입니까?
2. 변환된 샘플을 표현 공간에서 실험 그룹과 통제 그룹에 보다 균등하게 분포시키는 방법은 무엇입니까?
핵심 아이디어는 변환 매핑 후 각 샘플에 대한 반사실적 "쌍둥이"를 찾는 것입니다. 매핑 후 치료군과 대조군의 X 분포는 상대적으로 유사합니다.
더 대표적인 작업은 TKDE 2022에 발표된 논문으로, DeR-CFR의 일부 작업을 소개합니다. 이 부분은 실제로 모델 없는 분리 방법을 사용하는 DR-CRF 모델의 반복입니다. 관찰된 변수.
X 변수를 조정 변수 A, 도구 변수 I, 교란 변수 C의 세 부분으로 나눕니다. 그런 다음 관찰된 데이터에 대한 인과 모델링의 목적을 달성하기 위해 I, C 및 A를 사용하여 다양한 처리에서 X의 가중치를 조정합니다.
이 방법의 장점은 교란 요인을 분리하고 추정 편향을 줄일 수 있다는 것입니다. 단점은 지속적인 개입을 처리하기 어렵다는 것입니다.
이 네트워크의 핵심은 세 가지 유형의 변수 A/I/C를 어떻게 분리하느냐 하는 것입니다. 조정 변수 A는 Y에만 관련되어 있으며 A와 T가 직교하고 A에서 Y에 대한 경험적 오류가 작은지 확인해야 합니다. 도구 변수 I는 T에만 관련되어 있으며 다음을 충족해야 합니다. T에 대한 I와 Y의 조건부 독립성 및 T에 대한 I의 경험 오류는 작습니다. 혼동 변수 C는 T와 Y 모두에 관련되어 있으며, w는 네트워크에 부여된 가중치입니다. 가중치를 적용하려면 C와 T가 w에 대해 조건부 독립임을 확인해야 합니다. 여기서 직교성은 로그손실 또는 mse 유클리드 거리 및 기타 제약 조건과 같은 일반적인 거리 공식을 통해 달성될 수 있습니다.
지속적인 개입을 처리하는 방법에 대한 몇 가지 새로운 논문 연구도 있습니다. ICLR2021에 게시된 VCNet은 지속적인 개입에 대한 추정 방법을 제공합니다. 단점은 관측데이터(CFR 시나리오)에 직접 적용하기 어렵다는 점이다.
X를 Z에 매핑합니다. Z에는 앞서 언급한 X 분해에서 주로 I 변수와 C 변수가 포함됩니다. 즉, 처리에 기여하는 변수가 X에서 추출됩니다. 여기서 연속 처리는 B 분할/예측 헤드로 구분되며 각 연속 함수는 분할 선형 함수로 변환되어 경험적 오류 로그 손실을 최소화하고 이를 학습하여
에 사용됩니다. 이를 사용하여 Complete Z와 θ(t)를 학습합니다. 결과입니다. 여기서 θ(t)는 연속처리 처리의 핵심이다. 가변계수 모델이지만, 이 모델은 연속처리만 처리하므로, 관찰 데이터라면 각 B 세그먼트 데이터가 균일하다는 것을 보장할 수 없다.
마지막으로 Du Xiaoman의 반사실적 신용 모델을 소개하겠습니다. 여기서 주요 문제는 관찰 데이터에 대한 연속 처리의 반사실적 추정 문제를 해결하는 것입니다.
핵심 질문은 플랫폼의 수익을 극대화하기 위해 사용자를 위한 (차용 가능한) 할당량을 어떻게 설계할 것인가 하는 것입니다. 여기서 사전 지식은 한도가 높을수록 더 많은 사용자가 차용하고 채무 불이행 위험이 높아진다는 것입니다. 그 반대의 경우도 마찬가지입니다.
우리는 각 사용자가 위 그림과 같은 이익 곡선을 갖고 다양한 할당량 수준에서 수익 가치에 대한 반사실적 추정을 할 것으로 예상합니다.
금액이 높을수록 위험이 낮아진다는 것을 알 수 있습니다. 본질적으로 교란 요인이 존재하기 때문입니다. 우리 시나리오에서 혼란스러운 요소는 신용 자격입니다. 신용 자격이 좋은 사람에게 플랫폼은 더 높은 한도를 부여하고, 그 반대의 경우 플랫폼은 더 낮은 한도를 부여합니다. 신용등급이 우수한 사람의 절대위험은 신용등급이 낮은 사람에 비해 여전히 현저히 낮습니다. 신용등급을 높이면 한도가 높아지면 위험도 커지게 되고, 높은 한도는 사용자 자신의 지불능력을 초과하게 된다는 것을 알 수 있습니다.
반실적 신용 모델의 틀을 소개하기 시작합니다. 관찰 가능한 변수 중 .
모델 아이디어: 예상되는 양 μ(T|X)가 주어지면 ΔT와 Y 사이의 단조로운 관계(용량-반응 곡선)를 학습합니다. 기대량은 모델이 학습한 연속적인 경향량으로 이해하면 교란변수 C와 T량의 관계를 단절시키고 ΔT와 Y 사이의 인과관계 학습으로 전환하여 분포를 비교할 수 있다. ΔT 하에서 Y의 특성이 양호합니다.
위의 추상 프레임워크는 여기에서 더욱 구체화됩니다. ΔT는 가변 계수 모델로 변환된 다음 IntegrandNN 네트워크에 연결됩니다.
여기서 알파는 위험의 중요성을 측정하는 하이퍼 매개변수입니다.
Mono-CFR은 두 부분으로 구성됩니다:
기능 1: T와 가장 관련성이 높은 X의 변수를 추출하고 경험적 오류를 최소화합니다.
기능 2: 역사적 전략에 대한 대략적인 샘플을 고정합니다.
함수 1: 약한 계수 변수에 독립 단조 제약 조건을 적용합니다.
함수 2: 추정 편향을 줄입니다.
문제는 다음과 같이 변환됩니다.
실제 할당 성향 네트워크 입력은 다음과 같습니다.
가로축은 A 카드 점수로 정의된 그룹이며 서로 다른 성향 할당량 하에 있음을 알 수 있습니다. μ(T|X), 신용 차이 ΔT와 연체율 Y는 단조로운 증가 관계를 나타냅니다. 품질이 나쁠수록 신용 차이 ΔT 변화 곡선은 더 가파르고 실제 연체율 변화 곡선도 더 가파르며 전체 곡선이 더 큽니다. 여기서 결론은 전적으로 과거 데이터 학습을 통해 도출되었습니다.
의 분포도를 보면 알 수 있는 실용적인 관점에서 설명합니다.
이론적인 관점에서도 엄격하게 증명할 수 있습니다.
두 번째 부분은 위험 단조 네트워크의 구현입니다.
여기서 ELU+1 함수의 수학적 표현은 다음과 같습니다.
ΔT 및 연체율은 단조로운 증가 추세를 나타내며, 이는 ELU+1 함수의 도함수가 항상 0보다 크거나 같음으로 보장됩니다.
다음으로 위험 단조 네트워크가 약한 계수 변수에 대해 어떻게 더 정확하게 학습할 수 있는지 설명합니다.
다음 공식이 있다고 가정합니다.
볼 수 있다 여기서 x1은 약한 계수 변수입니다. 단조성 제약 조건이 x1에 적용되면 응답 Y의 추정이 더 정확해집니다. 이러한 별도의 제약이 없으면 x1의 중요도가 x2에 의해 압도되어 모델 편향이 증가하게 됩니다.
은 두 부분으로 나뉩니다.
다양한 자격을 가진 사람들의 한계위험을 다음과 같이 그려라. 위 그림 변화 곡선을 통해 모델은 다양한 자격을 갖춘 다양한 수준의 사람들의 실제 할당량과 연체율 간의 차이를 학습할 수 있습니다(그림에서 서로 다른 색상으로 표시됨).
온라인 실험 결론:
할당량이 30% 증가한다는 조건에서 연체자 수가 20% 이상 감소하고 차입금이 30% 증가하며 수익성이 좋아집니다. 30% 이상 증가합니다.
미래 모델 기대치:
모델이 없는 형식에서 도구 변수와 조정 변수를 더 명확하게 분리하여 모델이 품질이 낮은 그룹의 위험 이전에 대해 더 나은 성능을 발휘할 수 있습니다.
실제 비즈니스 시나리오에서 Du Xiaoman의 모델 진화 반복 프로세스는 다음과 같습니다.
첫 번째 단계는 관측 모델링, 지속적으로 과거 관측 데이터 롤링, 반사실적 인과 학습 수행, 지속적으로 새로운 교육 창 열기 및 외부 데이터 소스 보완입니다.
두 번째 단계는 모델 반복입니다. 효과적인 모델 반복을 지원하기 위해 소규모 트래픽 무작위 샘플을 기반으로 효과를 검증합니다.
세 번째 단계는 비즈니스 의사결정입니다. 비즈니스는 모델 효과 개선을 검증하고 비즈니스 이점을 얻기 위해 모델 출력을 기반으로 실험적인 결정을 내립니다.
위 내용은 반사실적 인과 추론을 기반으로 한 Duxiaoman 할당량 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!