検索
ホームページテクノロジー周辺機器AI最適輸送とその公平性への応用

翻訳者 | Li Rui

査読者 | Sun Shujuan

最適輸送は経済学から生まれ、現在はリソースを最適に割り当てる方法のツールとして開発されています。最適輸送理論の起源は、フランスの科学者ガスパール・モンジュが「地球を動かす」と称され、ナポレオン軍の要塞を構築する方法を研究した 1781 年に遡ります。全体として、最適な輸送とは、資源が移動しなければならない総距離を最小限に抑えながら、すべての資源 (鉄鉱石など) を一連の開始点 (鉱山) から一連の終了点 (製鉄所) まで移動する方法の問題です。数学的には、研究者らは、出発地とそれに対応する目的地間の総距離を最小限に抑えながら、各出発地を目的地にマッピングする関数を見つけたいと考えていました。無害な説明にもかかわらず、マンガーの概念として知られるこの問題の最初の概念の進歩は 200 年近く停滞していました。

1940 年代、ソ連の数学者レオニード カントロヴィッチは、この問題の定式化を現代版 (現在はモンジュ カントロフ理論として知られています) に修正し、これが解決への第一歩となりました。ここでの目新しさは、同じ鉱山からの一部の鉄鉱石を異なる製鉄所に供給できることです。たとえば、鉱山からの鉄鉱石の 60% を製鉄所に提供し、鉱山からの鉄鉱石の残りの 40% を別の製鉄所に提供することができます。数学的には、同じ出発地が潜在的に複数の目的地にマップされるため、これは関数ではなくなります。対照的に、これは、下図に示すように、出発地分布と目的地分布のカップリングとして知られており、青い分布(出発地)から鉱山を選択し、図に沿って垂直に移動すると、鉄鉱石がどこに送られるかが表示されます。製鉄所(目的地)。

最適輸送とその公平性への応用

この新しい開発の一環として、カントリヴィッチはワッサーシュタイン距離と呼ばれる重要な概念を導入しました。マップ上の 2 点間の距離と同様に、ワッサーシュタイン距離 (元のシナリオからインスピレーションを得たブルドーザー距離としても知られています) は、2 つの分布 (この場合は青とマゼンタの分布など) の間の距離を測定します。すべての鉄鉱山がすべての製鉄工場から遠い場合、鉱山の分布 (位置) と製鉄所の分布の間のワッサーシュタイン距離は大きくなります。こうした新たな改良が加えられたとしても、鉄鉱石資源を輸送する最適な方法が本当に存在するかどうか、ましてやどの方法が最適であるかは依然として不明である。最後に、1990 年代には、数学的分析と最適化の改善により問題の部分的な解決策が導き出され、理論が急速に発展し始めました。 21 世紀に入ると、最適輸送は素粒子物理学、流体力学、さらには統計学や機械学習などの他の分野にも広がり始めました。

現代における最適な交通手段

新しい理論の爆発的な増加により、最適な交通手段は、過去 20 年間にわたり、多くの新しい統計および人工知能アルゴリズムの中心となってきました。ほとんどすべての統計アルゴリズムでは、データは、明示的または暗黙的に、何らかの基礎的な確率分布を持つものとしてモデル化されます。たとえば、個人の収入に関するデータがさまざまな国で収集された場合、各国のその集団の収入の確率分布が存在します。人口の所得分布に基づいて 2 つの国を比較したい場合は、2 つの分布間のギャップを測定する方法が必要です。まさにこれが、交通手段 (特にワッサーシュタインの距離) の最適化がデータ サイエンスで非常に役立つ理由です。ただし、Wasserstein 距離は 2 つの確率分布間の距離を測る唯一の尺度ではありません。実際、物理学と情報理論との関連により、歴史的には、L-2 距離とカルバック ライブラー (KL) 発散という 2 つのオプションの方が一般的でした。これらの代替手段に対する Wasserstein 距離の主な利点は、距離を計算するときに値とその確率の両方が考慮されるのに対し、L-2 距離と KL 発散は確率のみを考慮することです。下の画像は、架空の 3 つの国の収入に関する人工データセットの例を示しています。

最適輸送とその公平性への応用

この場合、分布は重なり合わないため、青とマゼンタの分布の間の L-2 距離 (または KL 発散) は青とマゼンタの分布と同じになります。マゼンタの分布 緑の分布間の L-2 距離はほぼ同じです。一方、青とマゼンタの分布間のワッサーシュタイン距離は、値(水平方向の分離)間に大きな差があるため、青と緑の分布間のワッサーシュタイン距離よりもはるかに小さくなります。 Wasserstein 距離のこの特性により、分布間の差異、特にデータセット間の差異を定量化するのに理想的になります。

最適な転送による公平性の実現

毎日膨大な量のデータが収集され、多くの業界で機械学習がより一般的になっているため、データ サイエンティストは、分析とアルゴリズムを永続させないようますます注意する必要があります。データ内の既存のバイアスとバイアス。たとえば、住宅ローン承認データセットに申請者の人種に関する情報が含まれているが、使用された方法や無意識の偏見により、収集プロセスでマイノリティが差別された場合、そのデータに基づいてトレーニングされたモデルは、根本的な逸脱を反映します。

輸送を最適化すると、2 つの方法でこの偏りを軽減し、公平性を向上させることができます。最初の最も簡単な方法は、Wasserstein 距離を使用して、データセットに潜在的なバイアスがあるかどうかを判断することです。たとえば、女性に承認されたローン金額の分布と男性に承認されたローン金額の分布の間のワッサーシュタイン距離を推定できます。ワッサーシュタイン距離が非常に大きい場合、つまり統計的に有意な場合は、潜在的なバイアスが疑われる可能性があります。 2 つのグループ間に差があるかどうかを検定するこの考え方は、統計学では 2 サンプル仮説検定として知られています。

あるいは、基になるデータセット自体に偏りがある場合に、最適な配送を使用してモデルの公平性を強制することもできます。現実世界のデータセットの多くはある程度の偏りを示しており、偏りのないデータを収集するには非常に費用がかかり、時間がかかるか、実行不可能であるため、これは実用的な観点から役立ちます。したがって、たとえ不完全であっても既存のデータを使用し、モデルがこのバイアスを確実に軽減できるようにすることがより現実的です。これは、モデル予測が機密属性から統計的に独立するように強制する、強力な人口統計的パリティと呼ばれるモデル内での制約を強制することによって実現されます。 1 つのアプローチは、モデル予測の分布を、機密属性に依存しない調整された予測の分布にマッピングすることです。ただし、予測を調整するとモデルのパフォーマンスと精度も変化するため、モデルのパフォーマンスとモデルが機密属性に依存する度合い (公平性など) の間にはトレードオフが存在します。

予測の変更を最小限に抑えて最適なモデルのパフォーマンスを確保しながら、新しい予測が機密属性から独立していることを確認することで、最適な出荷を実現します。この調整されたモデルによって予測される新しい分布は、ワッサーシュタイン重心と呼ばれ、過去 10 年間にわたって多くの研究の対象となってきました。 Wasserstein の重心は、それ自体から他のすべての分布までの合計距離を最小化するという点で、確率分布の平均に似ています。下の画像は、3 つの分布 (緑、青、マゼンタ) とそのワッサーシュタインの重心 (赤) を示しています。

最適輸送とその公平性への応用

上記の例では、婚姻状況などの機密属性を含むデータセットに基づいて、誰かの年齢と収入を予測するモデルが構築されていると仮定します。値: 独身 (青)、既婚 (緑)、未亡人/離婚 (マゼンタ)。散布図は、さまざまな値ごとのモデル予測の分布を示します。しかし、新しいモデルの予測が人の婚姻状況を無視できるようにこれらの値を調整したい場合は、最適な輸送を使用してこれらの各分布を赤の重心にマッピングできます。すべての価値観は同じ分布にマッピングされるため、収入と年齢に基づいて人の婚姻状況を判断したり、その逆を判断したりすることはできなくなります。重心はモデルの忠実性を可能な限り維持します。

ビジネスや政府の意思決定で使用されるデータと機械学習モデルの普及が進むにつれて、これらのモデルの公正な適用を保証する方法について、新たな社会的および倫理的問題が浮上しています。多くのデータセットには、その収集方法の性質上、ある種のバイアスが含まれているため、データセットに基づいてトレーニングされたモデルがこのバイアスや歴史的差別を悪化させないことが重要です。最適な輸送は、近年増加しているこの問題を解決するための 1 つの方法にすぎません。現在では、最適な交通地図と距離を計算するための高速かつ効率的な方法があり、このアプローチは現代の大規模なデータセットに適しています。人々がデータベースのモデルや洞察にますます依存するようになるにつれ、公平性はこれまで、そして今後もデータ サイエンスの中核となる問題であり、最適な交通手段がこの目標を達成する上で重要な役割を果たすことになります。

原題: Optimal Transport and its Applications to Fairness 、著者: Terrence Alsup

以上が最適輸送とその公平性への応用の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
2023年机器学习的十大概念和技术2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科,一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。 本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程,无需明确的编程。机器学习是一个不断发展的学科,一直在创造新的想法和技术。为了保持领先,数据科学家应该关注其中一些网站,以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用,并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术:1. 深度神经网

人工智能自动获取知识和技能,实现自我完善的过程是什么人工智能自动获取知识和技能,实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心,是使计算机具有智能的根本途径;它使计算机能模拟人的学习行为,自动地通过学习来获取知识和技能,不断改善性能,实现自我完善。机器学习主要研究三方面问题:1、学习机理,人类获取知识、技能和抽象概念的天赋能力;2、学习方法,对生物学习机理进行简化的基础上,用计算的方法进行再现;3、学习系统,能够在一定程度上实现机器学习的系统。

得益于OpenAI技术,微软必应的搜索流量超过谷歌得益于OpenAI技术,微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息,外媒报道称,分析公司Similarweb的数据显示,在整合了OpenAI的技术后,微软旗下的必应在页面访问量方面实现了更多的增长。​​​​截至3月20日的数据显示,自微软2月7日推出其人工智能版本以来,必应搜索引擎的页面访问量增加了15.8%,而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

超参数优化比较之网格搜索、随机搜索和贝叶斯优化超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。 译者 | 朱先忠​审校 | 孙淑娟​简介​通常,在尝试改进机器学习模型时,人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助(在某些情况下除外)的,但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能,超参数优化可以节省我们的时间和资源。​顾名思义,超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数(即,给定研究中的数据集,最大化模型的性能)的过程。换句话说,每个模型都会提供多个有关选项的调整“按钮

荣耀的人工智能助手叫什么名字荣耀的人工智能助手叫什么名字Sep 06, 2022 pm 03:31 PM

荣耀的人工智能助手叫“YOYO”,也即悠悠;YOYO除了能够实现语音操控等基本功能之外,还拥有智慧视觉、智慧识屏、情景智能、智慧搜索等功能,可以在系统设置页面中的智慧助手里进行相关的设置。

人工智能在教育领域的应用主要有哪些人工智能在教育领域的应用主要有哪些Dec 14, 2020 pm 05:08 PM

人工智能在教育领域的应用主要有个性化学习、虚拟导师、教育机器人和场景式教育。人工智能在教育领域的应用目前还处于早期探索阶段,但是潜力却是巨大的。

30行Python代码就可以调用ChatGPT API总结论文的主要内容30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。 阅读论文可以说是我们的日常工作之一,论文的数量太多,我们如何快速阅读归纳呢?自从ChatGPT出现以后,有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单,我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

人工智能在生活中的应用有哪些人工智能在生活中的应用有哪些Jul 20, 2022 pm 04:47 PM

人工智能在生活中的应用有:1、虚拟个人助理,使用者可通过声控、文字输入的方式,来完成一些日常生活的小事;2、语音评测,利用云计算技术,将自动口语评测服务放在云端,并开放API接口供客户远程使用;3、无人汽车,主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标;4、天气预测,通过手机GPRS系统,定位到用户所处的位置,在利用算法,对覆盖全国的雷达图进行数据分析并预测。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません