집 >기술 주변기기 >일체 포함 >Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

王林앞으로: 2023-05-06 21:10:081453검색

1. 신뢰할 수 있는 지능형 의사결정 프레임워크

먼저, 신뢰할 수 있는 지능형 의사결정 프레임워크를 여러분과 공유하고 싶습니다.

1. 예측보다 중요한 결정

많은 실제 시나리오에서는 예측보다 결정이 더 중요합니다. 예측 자체의 목적은 단지 미래가 어떤 모습일지 예측하는 것이 아니라 예측을 통해 현재의 일부 주요 행동과 결정에 영향을 미치는 것이기 때문입니다.

경영사회학 분야를 비롯한 여러 분야에서 지속적인 비즈니스 성장(Continual business Growth), 새로운 비즈니스 기회의 발견(New business Opportunity) 등 의사결정이 매우 중요합니다. 데이터 기반을 통해 더 나은 의사결정을 내린다. 최종 의사결정을 적절하게 지원하는 것은 인공지능 분야의 업무 중 무시할 수 없는 부분이다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

2. 의사결정은 어디에나 있습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

의사결정 시나리오는 어디에나 있습니다. 사용자에게 상품을 추천하는 잘 알려진 추천 시스템은 실제로 모든 상품 중에서 선택 결정을 내린다. 물류 서비스 가격 책정 등과 같은 전자 상거래의 가격 책정 알고리즘, 의료 상황에서 서비스에 대한 합리적인 가격을 설정하는 방법, 환자의 증상에 따라 어떤 약물이나 치료법을 권장해야 하는지 등은 모두 중재적 의사 결정입니다. 시나리오.

3. 의사결정의 일반적인 방법 1: 시뮬레이터를 사용하여 의사결정

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

의사결정은 학계와 업계 모두 낯설고, 문제를 해결하거나 논의하기 위해 일반적으로 사용되는 방법이 몇 가지 있습니다. 의사결정 문제 요약하자면, 두 가지 일반적인 방법이 있습니다.

첫 번째 일반적인 접근 방식은 시뮬레이터를 사용하여 결정을 내리는 것, 즉 강화 학습입니다. 강화 학습은 의사 결정을 위한 매우 강력한 방법 시스템입니다. 이는 실제 장면(환경) 또는 실제 장면의 시뮬레이션을 갖는 것과 동일하며, 지능형 에이전트는 실제 장면을 지속적으로 탐색하여 시행착오 학습을 수행할 수 있습니다. 이 실제 시나리오에서 가장 큰 보상(보상)이 있는 핵심 행동(action)을 찾아냅니다.

강화학습의 전체 의사결정 시스템은 많은 실제 응용 문제에서 누구나 가장 먼저 떠올리는 것이 될 것입니다. 그러나 실제 응용 시나리오에서 강화학습을 사용할 때 가장 큰 과제는 실제 시나리오에 적합한 좋은 시뮬레이터가 있는지 여부입니다. 시뮬레이터 자체를 구축하는 것은 어려운 작업입니다. 물론 알파고 체스와 같은 게임 시나리오의 경우 일반적으로 규칙이 상대적으로 폐쇄적이며 시뮬레이터를 구성하는 것이 상대적으로 쉽습니다. 그러나 비즈니스와 실생활에서는 대부분 무인 운전 등 개방형 시나리오로, 매우 완벽한 시뮬레이터를 제공하기 어렵습니다. 시뮬레이터를 구축하려면 시나리오에 대한 깊은 이해가 필요합니다. 따라서 시뮬레이터를 구성하는 것 자체가 결정을 내리고 예측하는 것보다 더 어려운 문제일 수 있습니다. 이는 실제로 강화학습의 한계입니다.

4. 의사 결정에 대한 일반적인 접근 방식 2: 예측을 사용하여 결정을 내립니다.

또 다른 일반적인 접근 방식은 예측을 사용하여 결정을 내리는 것입니다. 이는 지금은 어떤 결정이 좋은지 알 수 없지만 예측 변수가 있으면 아래 그림의 왼쪽과 같이 예측 공간에서 "지정할 위치를 촬영"할 수 있다는 의미입니다. 화살을 쏘는 사람은 먼저 몇 개의 화살을 쏠 수 있습니다. 표적을 향해 쏘는 경우 어떤 화살이 더 잘 쏘는지 알아내면 이 화살의 핵심 동작을 사용하여 관련 결정을 내릴 수 있습니다. 그러한 예측 공간이 있다면 예측을 사용하여 결정을 내릴 수 있습니다.

하지만 의사결정의 효과는 예측이 정확한지 아닌지, 예측 공간의 정확성에 따라 달라집니다. 예측 공간에서는 목표가 10번 히트하지만, 실제 생활이나 제품에 적용하면 히트 횟수가 0번이 되어 예측 공간이 부정확해진다. 지금까지 예측 작업에서 가장 확실한 시나리오는 독립적이고 동일한 분포, 즉 테스트 분포와 학습 분포가 동일한 분포를 가정하여 예측하는 것입니다. 현재 강력한 예측 모델이 많이 있습니다. ) 실용적인 문제를 잘 해결할 수 있습니다. 이는 예측 정확도가 좋은지 아닌지는 실제 시나리오에서 테스트 데이터와 훈련 데이터의 분포가 독립적이고 동일한 분포를 만족하는지 여부에 따라 어느 정도 좌우됩니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

예측의 정확성에 대해 계속 깊이 생각해 보세요. 예측 모델이 과거 데이터 P(X,Y)를 기반으로 구성되었다고 가정하고 몇 가지 주요 동작, 즉 위에서 언급한 것처럼 여러 개의 화살표를 쏘아 어떤 화살표가 가장 많은 수의 목표를 가지고 있는지 확인함으로써 얻을 수 있는 이점을 탐색합니다. . 이를 분해하면 두 가지 상황으로 나눌 수 있습니다.

첫 번째 범주는 주어진 의사결정 변수의 값을 최적화하는 것입니다. 입력 변수 X 중 어떤 것이 더 나은 결정 변수인지 미리 알고 있는 경우, 예를 들어 값을 얻은 후 무슨 일이 일어나는지에서 가격이 결정 변수인 경우입니다.

또 다른 범주는 최적의 의사결정 변수를 찾고 그 값을 최적화하는 것입니다. 예측 모델이 예측한 값 중 어느 것이 좋은지는 미리 알 수 없습니다.

이 전제 가정을 바탕으로 결정 변수의 값을 변경하면 P(X)가 실제로 변경됩니다. 즉, P(X)가 변경되면 P(X,Y)는 확실히 변경되고 독립적으로 동시에 동시에 변경됩니다. 분포 가정 자체가 무너지며, 이는 예측이 실제로 유효하지 않을 가능성이 매우 높다는 것을 의미합니다. 따라서 의사 결정 문제를 예측 방식으로 해결하면 의사 결정 변수의 값을 변경하면 필연적으로 분포 이동이 발생하므로 분포 외 일반화 문제가 발생합니다. 분포편차의 경우 예측 방법은 분포외 일반화의 예측 문제 범주에 속하며 오늘 기사의 주제는 아닙니다. 분포 외 일반화의 예측 문제가 예측 분야에서 해결될 수 있다면 예측을 사용하여 의사 결정을 내리는 것도 가능한 경로 중 하나입니다. 그러나 현재 의사결정을 위해 ID(In-Distribution)나 직접예측(direct Prediction) 방식을 사용하는 것은 이론적으로 타당하지 않으며 문제가 있다.

5. 의사결정 문제는 원인과 결과의 범주에 속합니다

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

의사결정 문제를 이야기할 때, 의사결정 문제는 대개 원인과 결과로 직접 연결됩니다. 소위 의사결정이란 어떤 결정을 내리는가를 말하는데, 그러한 결정이 왜 내려졌는가를 물어야 한다는 것은 학계 내 많은 학자들의 공통된 의견이다. 의사결정 문제를 해결하려면 원인과 결과를 피할 수 없다는 것, 즉 관찰 가능한 데이터에서 시작하여 충분한 인과관계 정보(인과정보)를 얻고 관련 인과 메커니즘(인과 메커니즘)을 이해한 다음 이를 위한 몇 가지 전략을 설계해야 한다는 것입니다. 인과 메커니즘에 기초한 최종 의사결정. 전체 과정을 철저하게 이해할 수 있다면 전체 인과 메커니즘을 완벽하게 복원할 수 있기 때문에 의사결정은 사실상 하나님의 관점을 갖는 것과 같고 의사결정에 어려움이 없기 때문에 문제가 되지 않습니다.

6. 의사 결정의 프레임워크 설명

2015년 초에 Jon Kleinberg는 다음과 같은 논문을 발표했습니다. 의사 결정 문제는 인과 메커니즘만으로 해결되지 않습니다. 즉, 모든 결정이 문제가 되는 것은 아닙니다. 해결하려면 인과 메커니즘이 필요합니다. 존 클라인버그(Jon Kleinberg)는 코넬 대학교의 저명한 교수입니다. 유명한 히트 알고리즘, 6도 스타일 이론 등은 모두 존 클라인버그의 연구 결과입니다. Jon Kleinberg는 2015년에 의사결정 문제에 관한 "예측 정책 문제"라는 논문을 발표했습니다[1]. 그는 일부 의사결정 문제가 예측 전략 문제라고 믿었고, 이 주장을 증명하기 위해 아래 그림과 같이 의사결정에 대한 프레임워크 설명을 제시했습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Π은 보상 함수이고, x₀은 결정 변수에 의해 발생합니다. Π는 실제로 함수입니다 x₀ 및 Y. 그렇다면 x₀은 어떻게 변합니까? Π가 가장 크다면 다음과 같은 파생어를 찾을 수 있습니다:

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

그리고 다음과 같이 확장합니다:

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

확장 후 Y와 x₀관련이 있든 없든 방정식의 오른쪽은 두 가지 의사 결정 시나리오를 나타냅니다. 첫 번째 의사결정 시나리오는 Y와 x₀이 관련이 없지만 Y와 관련되어 있는 경우입니다. 이 경우 Y를 잘 예측할 수 있으면 예측된 Y를 사용할 수 있습니다. 보다 목표화된 방식으로 결정을 내리는 데 사용됩니다. 이것이 바로 예측 의사결정 문제입니다. 또 다른 의사 결정 시나리오는 x0이 그러한 결정을 내리고 이것이 Y에 영향을 미치고 Y가 소득에 영향을 미친다는 것입니다. 이는 인과적 의사 결정 문제입니다. 그렇다면 어떤 상황에서 의사결정 시나리오가 인과관계가 있고 어떤 상황에서 예측이 가능할까요? 사례 설명은 나중에 다루겠습니다. 물론 인과관계와 예측이 모두 포함된 복합적인 의사결정 시나리오도 있습니다. 이 시점에서 의사결정 문제가 무엇인지에 대한 예비 프레임워크 설명이 제공됩니다.

7. 두 가지 의사결정 시나리오

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

위 그림과 같이 두 가지 의사결정 시나리오는 다음과 같습니다. 여기서 x₀ 는 의사결정 변수입니다. 두 시나리오의 정의는 다릅니다.

먼저 왼쪽의 현장 케이스를 살펴보세요. 우산을 가져와야 하는지 여부와 비가 오는지 여부(즉, x₀) 사이에는 관계가 없으며 Y는 관련이 없으며

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

로 가져옵니다. 즉,

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

은 0입니다. , 그러면:

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

그래서 비가 올지 안 올지 예측하면 최종 혜택이 달라집니다. 따라서 이 예는 분명히 예측 결정입니다.

오른쪽의 경우는 당신이 추장이라면 비를 기원하기 위해 신의 춤을 추도록 누군가에게 돈을 지불해야 할까요? 사실 '춤의 춤'이 비를 가져올 수 있는지 여부에 따라 크게 달라집니다. 인과관계가 있는지.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

방정식 오른쪽에 비가 올지 여부를 예측할 수 있는 경우:

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

는 0입니다. 즉, 수입(비가 오든 안 오든)과 결정 변수(점프할지 말지) 사이에는 실제로 아무런 관계가 없습니다. 그렇다면 이는 예측적 결정이 아니라 순전히 인과적 결정입니다.

위의 두 실제 의사결정 사례 시나리오를 통해 의사결정 문제는 예측적 의사결정과 인과적 의사결정이라는 두 가지 범주로 나눌 수 있으며, Jon Kleinberg가 제시한 의사결정 문제의 프레임워크도 설명합니다. 의사결정의 중요성을 잘 알고 있습니다.

8. 의사결정의 복잡성

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Jon Kleinberg의 논문에서 제시된 견해 중 하나는 예측적 의사결정 문제의 경우 예측이 좋은지 여부만 중요하다는 것입니다. 인과 메커니즘이 반드시 필요한 것은 아닙니다. 예, 예측 모델은 의사 결정 시나리오에서 매우 유용하고 의사 결정 문제에 대한 표현 능력이 뛰어나며 여러 상황을 함께 통합할 수 있습니다. 그러나 의사결정의 실제 복잡성은 예측 시나리오에 대한 이전의 이해를 뛰어넘습니다. 대부분의 경우 예측 문제를 해결할 때 우리는 최선을 다할 뿐이고, 최종 정확도를 높이기 위해 더 복잡한 모델과 더 많은 데이터를 사용하려고 노력합니다. 즉, 최선의 노력 모델(best Effort Model)입니다.

하지만 의사결정 시나리오에는 예측보다 훨씬 더 많은 제약이 있습니다. 의사결정은 실제로 마지막 단계입니다. 최종 결정은 실제로 모든 측면에 영향을 미치고 많은 이해관계자에게 영향을 미치며 매우 복잡한 사회적, 경제적 요인을 포함합니다. 예를 들어, 동일한 대출에서 성별, 지역이 다른 사람들에 대한 차별이 있는지 여부는 알고리즘 공정성의 전형적인 문제입니다. 빅데이터는 익숙하고, 같은 제품이라도 사람마다 가격이 다른 것도 문제다. 최근에는 비교적 좁은 스펙트럼에서 사용자의 관심이나 관심을 기반으로 사용자를 지속적으로 추천하여 정보 누에고치 방을 형성한다는 정보 누에고치 방에 대한 모든 사람들의 이해가 깊어졌습니다. 이대로 가면 나쁜 문화, 사회 현상이 나타날 것이다. 따라서 결정을 내릴 때 신뢰할 수 있는 결정을 내리려면 더 많은 요소를 고려해야 합니다.

9 신뢰할 수 있는 지능적인 의사결정을 위한 프레임워크

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

의사결정 신뢰도의 관점에서 Jon Kleinberg가 제시한 의사결정 문제 프레임워크를 계속해서 해석해 보세요. Jon Kleinberg 자신이 의사결정 문제에 대한 예측 모델의 효율성을 옹호하기 위해 이러한 의사결정 문제 프레임워크를 제안했지만 실제로 의사결정 문제 프레임워크의 의미는 매우 풍부합니다. 의사결정 문제 프레임워크.

우선 이 가장 오른쪽 항목입니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

어떤 반사실 현상, 즉 어떤 어떤 변화가 일어났는지가 전형적인 반사실 추론이자 인과추론의 핵심부분입니다. 물론 유대진주가 제시한 틀에서는 세 번째 단계이다. 반사실적 추론에 대한 다양한 이해와 설명이 있습니다. 여기서 논의된 반사실적 추론은 당분간 합리적인 것으로 간주됩니다. 두 번째 항

은 실제로 수익 함수와 모델 결과 간의 관계와 동일합니다. Y와 Π 사이의 관계에 대한 더 간단한 시나리오가 있습니다. 예를 들어 상품을 추천할 때 사용자에게 어떤 상품을 추천하고 사용자가 이를 클릭하게 되는가? 최종 최적화 보상함수는 실제로 전체 클릭률이다. 이것은 둘 사이의 관계가 비교적 간단한 시나리오입니다. 그러나 실제 비즈니스에서는 플랫폼 관점에서든 규제 관점에서든 Y와 Π의 관계는 대부분의 경우 매우 복잡합니다. 예를 들어, 나중에 논의할 경우, 플랫폼의 수익을 최적화할 때 현재의 클릭률만 볼 수는 없고, 장기적인 수익을 볼 때는 장기적인 수익도 함께 고려하게 됩니다. Y와 Π의 관계는 상대적으로 복잡합니다. 즉, 수익이 복잡해집니다.

세 번째 항목은 Y입니다. 핵심 업무는 예측을 하는 것이지만, 예측이 의사 결정에 사용되고 의사 결정 시나리오가 개인 신용에 영향을 미치는 등 사회적 성격을 띠는 경우, 대학 입학 시험이 승인되고, 수감자가 석방될지 여부 등, 이러한 모든 소위 예측 작업에서는 예측이 공정해야 하며 성별, 인종, 신원 등과 같은 일부 민감한 차원 변수를 사용할 수 없음을 요구합니다. 예측을 하기 위해.

네 번째 항목 은

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

이며, 혜택과 결정 간의 관계를 나타냅니다. 일반적으로 말해서, 수익 극대화를 전제로 결정을 내려야 합니다. 그러나 현실적으로는 국내외를 막론하고 플랫폼 알고리즘에 대한 감독이 점차 늘어나고 있다. 즉 보상함수 설계에 규제적 요소가 추가되면서 의사결정에 일정한 제약이 가해지고 있다. 예를 들어 가격은 플랫폼에서 임의로 설정할 수 없으며 대신 보상 기능에 일부 규제 요소를 추가해야 합니다.

이 의사결정 문제 프레임워크에는 다양한 수준의 시나리오가 포함되어 있으며 위의 네 가지 하위 방향이 있다고 간주할 수도 있습니다. 그러나 일반적으로 위의 네 가지 하위 방향은 믿을 수 있는 의사 결정과 매우 관련이 있습니다. 즉, 캐릭터가 믿을 수 있는지 확인하려면 요소의 모든 측면을 고려해야 합니다. 그러나 일반적으로 Jon Kleinberg가 제공한 프레임워크를 사용하면 균일하게 표현할 수 있습니다.

다음에서는 신뢰할 수 있는 지능적 의사결정 프레임워크 아래 4가지 하위 방향인 반사실 추론, 복잡한 혜택, 예측 공정성 및 규제 의사결정을 소개합니다.

2. 신뢰할 수 있는 지능적 의사결정의 반사실 추론

먼저 신뢰할 수 있는 지능적 의사결정의 프레임워크 하에서 반사실 추론에 대한 몇 가지 생각과 사례를 소개하겠습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

1. 반사실 추론

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

반사실 추론에는 세 가지 시나리오가 있습니다.

첫 번째는 전략의 평균 효과 평가(Off-Policy Evaluation)입니다. 특정 정책에 대해 AB 테스트 비용이 너무 높기 때문에 AB 테스트를 수행하고 싶지 않습니다. 따라서 오프라인 데이터에 대한 정책 효과를 평가하는 것은 전체 모집단을 테스트하는 것과 같습니다. 모든 사용자 그룹에 대한 전반적인 효과 평가.

두 번째는 전략의 개별 효과 평가(반향적 예측)로, 개인 수준에서 전략의 효과를 예측하는 것입니다. 전체적인 플랫폼 전략이 아니라, 특정 이후에는 어떤 효과가 나타날까요? 개입은 개인을 위해 수행됩니다.

세 번째는 정책 최적화, 즉 개인에게 가장 적합한 개입을 선택하는 방법입니다. 개별 효과 예측과 달리 개별 효과 예측은 개입 방법을 먼저 알고 개입 후 효과를 예측하는 것이며, 전략 최적화는 개입 방법을 미리 알지 못하고 개입 후 최상의 효과를 얻는 방법을 찾는 것입니다.

2. 전략 평균 효과 평가

(1) 전략 평균 효과 평가의 문제 프레임워크 개요

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

전략 평균 효과 평가는 전략 Π을 기반으로 합니다. 0 _{(행동 정책)에 의해 생성된 오프라인 데이터 D는 정책 Π(대상 정책)의 효용 가치(Utility)를 평가합니다.}

Π₀은 기존 추천 시스템에서 사용하던 추천 전략과 같은 기존 전략입니다.

기존 전략에 따라 생성된 오프라인 데이터 D는 위 그림과 같이 최소 3차원을 포함하며, x_i는 사용자 및 제품과 같은 배경 정보(Context)입니다. 추천 시스템의 속성 또는 상품을 구매합니다. 과거 데이터를 기반으로 새로운 정책Π(대상정책)의 효용가치(Utility)를 평가합니다. 따라서 전체적인 틀은 특정 맥락에서 특정 전략(정책)이 해당 행동 또는 개입 변수(치료)를 갖게 된다는 것입니다. 이 개입 변수(치료)가 트리거되면 해당 결과가 생성됩니다. 그 중 효용가치(Utility)는 앞서 언급한 보수(payoff)로, 단순화를 전제로 효용가치는 모든 사용자가 창출한 결과의 합, 즉 평균효과이다. (2) 기존 전략 평균 효과 평가 방법

기존 전략 평균 효과 평가 방법은 새로운 정책(policy) 하에서 결과 예측 방법(Direct Method)을 기반으로 함 xi, 주체에 대해서는 노출 여부, 즉 해당 행위를 노출할 경우 최종 사용자가 구매할 것인지, 클릭할 것인지, 즉 최종 결과(보상)를 예측하는 것이 필요하다. ). 하지만 보상은 실제로 과거 데이터를 통해 얻은 예측 함수라는 점에 유의하세요. 과거 데이터에서 x, a, r의 결합 분포(joint distribution)는 실제로 Π0에서 생성되었습니다. 이제 Π에서 생성된 데이터 분포를 변경한 다음 Π0에서 생성된 결합 분포 예측 모델을 사용합니다. 추후에 OOD 예측 모델을 사용하게 되면, ID(In-Distribution) 예측 모델을 사용하게 되면 데이터 분포 오프셋 문제가 완화될 수 있음은 자명합니다. 원칙적으로 분명히 문제가 있을 것입니다. 이는 전략의 평균 효과를 평가하는 전통적인 방법입니다.

또 다른 방법은 인과 추론을 바탕으로 성향 점수를 도입하는 것입니다. 핵심 아이디어는 새로운 전략에서 어떤 가중치를 사용하여 최종 결과에 가중치를 부여하는 것입니다. 가중치는 xi가 주어진 원래 전략 하에서 xi의 노출 확률(ai)에 대한 새로운 전략 하에서 xi의 노출 확률(ai)의 비율이어야 합니다. 즉, 새로운 전략 하에서 a에 해당하는 결과는 다음과 같습니다. 삼중항 가중치를 위한 계수입니다. 이 접근법의 가장 어려운 부분은 원래 전략에서 xi가 주어진 후 ai에 해당하는 확률 분포를 실제로 알 수 없다는 것입니다. 왜냐하면 원래 전략은 매우 복잡할 수도 있고 여러 전략의 중첩일 수도 있기 때문입니다. 해당 분포를 정확하게 기술해야 하므로 추정이 필요하며, 추정이 정확한지 여부에 문제가 있을 수 있으며 추정값이 분모에 위치하므로 분포의 편차가 발생합니다. 전체 방법이 매우 커집니다. 또한, 성향점수(성향점수)의 추정을 이용하는데 있어서 성향지수(성향점수)의 함수가 선형인지 비선형인지, 어떤 형태인지, 추정이 정확한지 등의 문제가 있다. , 등.

(3) 전략의 평균 효과를 평가하는 새로운 방법: FCB 추정기

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

인과관계의 직접 교란자 균형에서 학습하여 표본에 직접 가중치를 부여하는 방법이 제안됩니다. 가중치를 적용하면 각 해당 작업 그룹의 분포 P(X|

ai

)는 일반적으로 P(X)와 일치합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Π₀을 기준으로 과거 데이터가 생성됩니다. Π₀로 인한 분포 편향(bias)을 제거하기 위한 구체적인 방법은 위 그림과 같습니다. 원본 데이터 분포 P(X) ), Π₀의 동작 하에서 이는 P(X)를 여러 하위 분포 P(X|a=1), P(X|a=2), P(X|a)로 나누는 것과 같습니다. =3),...,P(X|a=K), 즉 서로 다른 행동에 해당하는 P(X)의 하위 집합입니다. 이는 각 행동 그룹 아래에 요인 Π_{0이 있습니다.}로 인한 편차를 제거하려면 Π₀에 의해 생성된 과거 데이터에 가중치를 다시 부여하여 가중치를 부여한 후의 모든 하위 분포가 원래 분포 P(X)에 가까워지도록 하면 됩니다. 즉, 직접 가중치를 적용한 표본입니다. .

과거 데이터를 기반으로 새로운 전략의 최종 효과를 예측하려면 두 단계가 필요합니다. 첫 번째 단계는 위에서 언급한 대로 샘플에 직접 가중치를 부여하여 원래 전략 Π₀으로 인한 편향을 제거하는 것입니다. 두 번째 단계는 새로운 전략 Π의 효과를 예측하는 것, 즉 새로운 전략 Π로 인한 편차를 기반으로 최종 효과를 추정하는 것입니다. 따라서 새로운 전략 Π로 인한 편차를 추가해야 합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행 ㅋㅋㅋ 0

첫 번째 단계에서 : Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

은 새로운 전략의 편차를 추가함으로써 새로운 전략의 최종 효과를 예측할 수 있습니다. 구체적인 방법은 자세히 설명하지 않으나 논문 [2]를 참고하시면 됩니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

위 그림은 새로운 방법인 FCB Estimator의 최종 개선 효과를 보여줍니다. 개선 효과는 바이어스 또는 RMSE 측면에서 매우 분명하며 상대적인 개선은 약 15입니다. %-20%. FCB Estimator는 샘플 크기와 컨텍스트 차원이 다양한 다양한 시나리오에서 기준선보다 훨씬 뛰어납니다. 관련 논문은 KDD 2019[2]에 게재되었습니다. 3. 전략 개별 효과 예측

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행 (1) 전략 개별 효과 예측에 대한 전반적인 설명

전략 개별 효과 예측은 개인의 이질성을 충분히 고려하고 개인에 대한 차별화된 개입을 직접 구현하는 것입니다. , 개인의 의지를 존중하고 개인마다 다른 개입을 구현합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

(2) 기존 방법의 한계

전략의 개별 효과를 예측하는 일반적인 방법은 개인을 대상으로 직접 예측 모델링을 수행하는 것, 즉 과거 관찰 데이터를 기반으로 하는 것입니다.

그런 다음 반사실적 예측 모델이 훈련됩니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

즉, X와 T가 주어지면 실제 효과 y가 무엇인지 합리적이고 정확하게 예측할 수 있습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

과거 데이터의 분포 하에서 직접 회귀 분석이나 유사한 모델을 수행하면 문제가 발생합니다. 과거 관측 데이터에서 t_i와 x_i는 독립적이지 않기 때문에 (X, T)와 Y 간의 직접 매핑 기능을 직접 학습하는 것은 필연적으로 X와 T 간의 관계에 의해 영향을 받게 됩니다. x_i가 주어지면 과거 데이터에 해당 t_i가 있어야 합니다. 예를 들어 t_i는 0과 같아야 합니다. 예를 들어 T에 개입할 때 다음과 같습니다. 강제로 t _i가 1로 변경되는데 이는 실제로 더 이상 원래의 과거 분포를 따르지 않습니다. 즉, 과거 데이터 분포 하에 구축된 ID(In-Distribution) 예측 모델이 유효하지 않으며 OOD(Out-of -분포) ).

따라서 소위 예측 모델을 구성할 때 X와 T 간의 상관 관계를 제거하고 X가 Y에 미치는 영향과 T가 Y에 미치는 영향을 각각 추정해야 합니다. T가 개입되거나 변경되면 X와는 아무런 관련이 없습니다. Y에 어떤 영향과 변화를 미칠지는 전적으로 T->Y 링크에 의해 결정되며 OOD(Out-of-Distribution) 문제는 없습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

전통적인 접근 방식은 X와 T 간의 연관성을 제거하기 위해 표본 재가중(Sample Re-weighting) 방법을 사용하는 것입니다. 두 가지 방법이 있습니다: (1) 역성향 점수 가중치, (2) 변수 균형 조정. 그러나 이러한 방법에는 제한이 있습니다. 단순한 유형의 개입 변수(치료) 시나리오, 이진 또는 이산 값에만 적합합니다. 추천 시스템과 같은 실제 응용 시나리오에서는 개입 변수(처리)가 높은 차원을 갖습니다. 제품은 사용자에게 추천되고, 추천되는 것은 묶음입니다. 즉, 여러 제품에서 추천이 이루어집니다. 개입 변수(처리)의 차원이 매우 높은 경우 기존 방법을 사용하여 초기 개입 변수(원 처리)와 교란 변수(교란 변수) X를 직접 연관시키는 것은 매우 복잡하고 표본 공간조차 지원하기에 충분하지 않습니다. 높은 차원. 개입 변수(치료).

(3) 전략의 개별 효과를 예측하는 새로운 방법: VSR

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

고차원 개입변수(치료)가 저차원 잠재변수 구조를 갖는다고 가정하면 즉, 고차원적이다. 원칙적으로 개입변수(처리)는 랜덤하지 않다. 예를 들어 추천 시스템에서 주어진 추천 전략에 의해 추천된 상품 묶음은 상품들 간에 다양한 관계를 가지며, 낮은 차원이 존재한다. 차원 숨은 변수 변수 구조, 즉 추천 상품 목록은 여러 요인에 의해 결정됩니다.

고차원 개입변수(처리) 아래에 잠재변수 z가 있으면 문제는 실제로 x와 z 사이의 역상관, 즉 잠재인자(잠재인자)로 변환될 수 있습니다. ) ). 이러한 방식으로 제한된 샘플 공간으로 번들 처리를 수행할 수 있습니다.

그래서 새로운 방식의 VSR이 제안되었습니다. VSR 방법에서 첫 번째는 고차원 개입 변수(치료)의 잠재 변수 z(잠재 변수 z)를 학습하는 것입니다. 즉, 학습을 위해 VAE(변형 자동 인코더)를 사용한 다음 가중치 함수를 사용합니다. w(x, z) 학습, 표본 재가중화를 통한 x와 z 간의 역상관; 최종적으로 재가중치 상관 분포 바로 아래에서 회귀 모델을 사용하여 보다 이상적인 개별 전략 효과를 얻을 수 있는 예측 모델.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

위 그림은 새로운 방식의 VSR에 대한 실험적 검증입니다. 일부 시나리오에서는 Recsim 시뮬레이터를 통해 일부 데이터가 생성되기도 하고 검증을 위해 인위적으로 시뮬레이션된 데이터도 있습니다. 다양한 p 값 하에서 VSR의 성능이 상대적으로 안정적이며 다른 방법에 비해 크게 향상되었음을 알 수 있습니다. 관련 논문은 NeurIPS 2020[3]에 게재되었습니다.

4. 전략 최적화

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

전략 최적화와 앞선 두 가지 예측 평가에는 근본적인 차이가 있습니다. 예측평가는 최종 결과를 예측하기 위해 사전에 전략(정책)이나 맞춤형 개입(개별치료)을 제공하는 것이다. 전략 학습이라고도 불리는 전략 최적화의 목표는 단 하나, 즉 더 큰 결과를 얻는 것입니다. 예를 들어, 소득이 늘어나려면 어떤 개입을 해야 할까요?

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

이제 반사실적인 개인 수준 예측 모델 f, 즉 전략 개인 효과 예측 모델 f, 즉 x_i 및 t_{이 주어지면 i} , 해당 결과를 추정한 다음 T를 순회할 수 있습니다. t가 어떤 값을 취하면 f의 값이 가장 큽니다. 이는 더 나은 예측 공간을 구축하고 예측 공간에서 "적중할 위치를 타겟팅"하는 것과 동일합니다.

그러나 정책 최적화 문제를 정책의 개별 효과에 대한 예측 모델 구축으로 축소하는 데에는 문제가 있습니다. 위에서 언급한 전략의 개별 효과 예측의 목표는 반사실적 예측 상황과 실제 상황 사이의 오류가 가능한 한 작기를 바라며 주어진 개입과 실제로 동일하며 주어진 모든 개입에 대해 비교를 희망합니다. 정밀한. 전략 최적화의 목표는 실제 상황의 p^f과 하나님의 관점에서 최적의 결정의 결과 사이의 거리를 찾는 것입니다. 전체 공간 전략의 개별 효과를 예측하는 문제는 최적 지점에 가까운 영역을 찾을 수 있는지, 최적 지점을 정확하게 예측할 수 있는지 여부입니다. 전략 최적화와 전략 개별 효과 예측은 목표가 다르며 분명한 차이가 있습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

위의 사례 다이어그램에서 볼 수 있듯이 가로축은 다른 개입(치료)이며, 녹색 선은 하나님의 관점에서 본 실제 기능으로 특정 개입 하의 실제 결과를 반영합니다. 빨간색 선과 파란색 선은 두 가지 예측 모델의 결과를 반영합니다. 전략의 개별 효과 예측을 평가하는 관점에서 볼 때 파란색 선과 녹색 선의 전체 편차는 빨간색 선보다 훨씬 작습니다. 녹색 라인. 그러나 최적의 의사 결정의 관점에서 볼 때 빨간색 선의 최적 결과는 신의 관점에서 녹색 선의 최적 결과에 더 가깝고 해당 개입도 더 가깝고 파란색 선은 분명히 더 멀리 떨어져 있습니다. 따라서 더 나은 전략의 개별 효과 예측 모델이 반드시 최적의 결정으로 이어지는 것은 아니며, 실제 시나리오에서는 일반적으로 전체 공간에 대한 최적화를 위해서는 결과 관점에서만 최적화를 수행하는 것이 좋습니다. . 하위 영역에서 최적화할 경우 최적화 효과와 강도가 다릅니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

따라서 전체 공간에 대한 최적화가 아닌 개입 영역의 예측 및 최적화를 강화하여 더 나은 결과를 얻는 것을 목적으로 새로운 전략적 최적화 OOSR 방법을 제안합니다. 따라서 최적화를 수행할 때 결과 지향 가중치를 적용할 때 현재 개입이 훈련된 주어진 최적 솔루션에 가까울수록 최적화가 더 강력해집니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

위 사진은 OOSR의 실험적 검증으로 여러번의 개선을 거쳐 선택편향의 강도를 변화시킨 후 모든 각도에서 개선이 매우 뚜렷하다는 것을 알 수 있습니다. 효과는 매우 동일하게 유지됩니다. 관련 논문은 ICML 2022[4]에 게재되었습니다.

5. 역사실 추론 요약

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

우리는 실제로 인과관계를 이용해 예측합니다. 의사결정에 대해 자세히 알아보고 결정을 내립니다. 더 나은 결정을 내리거나 보다 개인화된 결정을 내릴 수 있습니다. 물론 다양한 시나리오에 대한 공개 질문이 많이 있습니다.

3. 신뢰할 수 있는 지능형 의사결정의 복잡한 이점

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

은 다음과 같은 복잡한 이점을 연구합니다.

, 이것을 고려해보세요 추천 시스템과 같은 시나리오는 사용자가 추천 제품이나 정보를 구매하거나 클릭하기를 희망하고 가격 인하 또는 빨간 봉투 피드백 등과 같은 일부 인센티브도 구현됩니다. 판매는 있지만 유사한 비즈니스 운영 전략이 많이 있습니다. 즉, 많은 상업적 자극이 구매를 원하지 않는 사람들을 사람으로 바꾸지 않는다는 것입니다. 구매하고 싶은데 월별 총 수요는 4개입니다. 가격이 내린 후 한 번에 4개를 모두 구입했습니다. 따라서 모델을 최적화할 때 단기적인 이점만 고려하는 것이 아니라 단기 및 장기 이점을 모두 고려하여 전략을 함께 최적화해야 합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

단기적 이익과 장기적 이익을 모두 고려하고 전략을 공동으로 최적화하려면 두 가지 매우 중요한 측면이 있습니다. 첫째, 소비자 선택 모델에 대한 더 깊은 이해가 필요합니다. 사용자가 주어지면 실제적인 소비자 선택 모델을 얻을 수 있는 방법이 없으며, 연구와 마이닝을 통해 지속적으로 탐색해야 합니다. 하나는 소비자 선택 모델을 탐색하는 것이고, 다른 하나는 소비자 선택 하에서 어떤 일이 일어나는지 탐색하는 것입니다. 모델은 장기 이익, 단기 이익 및 둘 사이의 균형을 극대화합니다. 이 영역의 작업은 위의 두 그림에 나와 있으므로 여기서는 자세히 설명하지 않겠습니다.

위 그림과 같이 최종 효과로 판단하면 많은 실제 시나리오에서 수익이 크게 증가하는 것으로 나타났습니다. 관련 논문은 NeurIPS 2022[5]에 게재되었습니다.

4. 신뢰할 수 있는 지능적 의사결정의 예측 공정성

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

예측이 의사결정, 특히 사회 지향적 의사결정에 포함되는 경우 , 반드시 예측의 공정성을 고려해야 합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

전통적인 방법에는 DP와 EO가 있는데, 이는 남성과 여성의 합격 확률이 동일하거나 남성과 여성의 예측 능력이 동일해야 한다는 점에서 상대적으로 차이가 납니다. 고전적인 지표. 그러나 DP와 EO는 공정성 문제를 본질적으로 해결할 수 없습니다.

예를 들어 대학 입학의 경우 이론적으로는 각 학과의 남학생과 여학생의 입학률이 동일해야 하지만 실제로는 일반적으로 여학생의 입학률이 더 낮다는 것을 알 수 있습니다. 사실 이것은 일종의 심슨 이론의 역설입니다. 대학 입학은 본질적으로 공정한 사례이지만 DP 지표로 감지되면 실제로 DP는 그다지 완벽한 공정성 지표는 아닙니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

EO 모델의 본질은 실제로 성별이 의사결정에 참여한다는 것입니다. 그러나 불공평한 시나리오에서 남성과 여성 모두에 대한 완벽한 예측변수가 있다면, 그것은 공정한 것으로 간주됩니다. 이는 EO의 판별률이 부족함을 나타냅니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

2020년에는 조건부 공정성 개념이 제안되었습니다. 조건부 공정성은 최종 결과가 민감한 속성과 무관하다는 것을 절대적으로 보장하지는 않지만 특정 공정성 변수가 주어지면 최종 결과가 민감한 속성과 독립된 경우 공정한 것으로 간주됩니다. 예를 들어 전공선택은 학생의 주관적 주도로 결정될 수 있어 공정하고 공정한 변수이고 공정성에 문제가 없다.

이렇게 하면 많은 이점이 있습니다. 예측의 관점에서 볼 때 실제로 공정성과 예측 사이에는 상충 관계가 있습니다. 즉, 공정성 요구 사항이 강할수록 사용할 수 있는 예측 변수가 줄어듭니다. 예를 들어, EO 프레임워크에서는 변수가 성별에서 결과 의사결정까지 연결되어 있는 한 사용할 수 없습니다. 사용하면 많은 변수가 실제로 매우 높은 예측 효율성을 가지지만 예측을 할 수는 없습니다. 그러나 조건부 공정성에서는 공정성 변수가 주어지면 링크 여부에 관계없이 예측 효율성을 보장할 수 있습니다.

이 프레임워크 하에서 다음 세 그림과 같이 DCFR 알고리즘 모델을 설계하고 제안합니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

아래 그림은 DCFR 알고리즘의 실험적 검증을 보여줍니다. 전체적으로 DCFR 알고리즘은 예측과 공정성 사이에서 더 나은 절충안을 달성할 수 있습니다. 파레토 최적성의 관점에서 볼 때 실제로는 왼쪽 위 곡선이 더 좋습니다. 관련 논문은 KDD 2020[6]에 게재되었습니다. ㅋㅋㅋ

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

요즘 플랫폼에는 다양한 맞춤형 가격 책정 메커니즘이 있습니다. 본질적으로 개인화된 가격 책정은 사회의 총 효율성과 총 잉여를 극대화할 수 있습니다. 그러나 극단적인 경우 판매자는 사용자에게 잉여금을 남기지 않고 모든 잉여금을 가져가는 것을 보고 싶지 않습니다. ㅋㅋㅋ 부가 소비자에게 주어집니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

마지막으로 이 문제를 해결하기 위해 아래 그림과 같은 제어 방법이 설계되었습니다. 즉, 예를 들어 동일한 상품의 경우 최고 가격과 최저 가격이 1을 초과할 수 없거나 특정 비율을 초과할 수 없습니다. 이러한 방식으로 설계된 규칙이 위에서 언급한 최적화 목표를 달성할 수 있다는 것이 이론적으로 입증될 수 있습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

이 시나리오에서는 기본적으로 소득 함수에 몇 가지 제약 조건을 추가하여 결정을 내릴 때 다른 수준의 고려 사항을 고려해야 합니다. 따라서 이 시스템에는 감독과 관련된 일부 전략이나 도구가 추가될 수 있습니다.

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행 6. 신뢰할 수 있는 지능적 의사결정 요약

위는 신뢰할 수 있는 지능적 의사결정의 프레임워크 하에서, 반사실적 추론, 복잡한 수익, 예측 공정성 및 규제 의사결정의 개별 지점에 대한 일부 시도. 전반적으로 의사결정의 범위는 예측보다 훨씬 큽니다. 의사결정 분야에는 우리의 삶과 비즈니스에 밀접하게 연관되어 탐구할 가치가 있는 미해결 이슈가 여전히 많이 남아 있습니다. 관련 논문은 WWW 2022[7]에 게재되었습니다. Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행

PS: 이 기사와 관련된 많은 기술적 세부 사항은 신뢰할 수 있는 지능형 의사 결정 방향에 관해 Cui Peng 팀이 발표한 최근 논문을 참조할 수 있습니다.

7. 참고문헌

[1] Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, Ziad Obermeyer, 2015.

[2] Hao Zou, Kun Kuang, Boqi Chen, Peng Cui, Peixuan Chen. KDD, 2019.

[3] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, Yue He. 번들 치료에 대한 반사실적 예측.

[4] Hao Zou, Bo Li, Jiangang Han, Shuiping Chen, Xuetao Ding, Peng Cui 결과 지향적 치료를 위한 반사실적 예측, 2022.

[5] Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui, NeurIPS, 2022.

[6] Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen 및 Wei Cui. KDD, 2020.

[7] Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu. WWW, 2022.

위 내용은 Cui Peng, Tsinghua University: 신뢰할 수 있는 지능형 의사결정 프레임워크 및 실행의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：새로운 트위터 CEO는 머스크에서 20년 동안 근무했으며 가족과 함께 사무실에 살고 있습니다!다음 기사：새로운 트위터 CEO는 머스크에서 20년 동안 근무했으며 가족과 함께 사무실에 살고 있습니다!