많은 연구에 따르면 AI는 너무 뻔뻔해서 성별을 기준으로 사람을 차별하는 법을 배웠습니다.
이것은 어떻게 할 수 있나요?
최근 Tsinghua & Fudan의 연구에서는 이에 대해 다음과 같은 제안을 했습니다.
AI를 성차별주의의 길에서 되돌리려면 AI를 꾸짖는 것이 효과적이지 않습니다.
가장 좋은 방법은 아이가 왜 이런지 이해하고 그에 맞는 약과 이유를 알려주는 것입니다.
합리적이고 과격하게 옳지 않게 가르치기만 하면 AI가 겁을 먹고 바보가 되기 때문입니다(성능이 저하됩니다)!
오 마이카, 네발달린 금먹는 짐승 키우기 힘들어요. (슌) 사이버아이 키우는 게 그렇게 어렵나요?
이 AI '간호사와 아빠' 그룹이 자녀 교육을 위해 어떤 제안을 하는지 살펴보겠습니다.
이전까지는 여자보다 남자를 좋아하는 나쁜 습관을 없애려고 뒤처진 AI의 귀를 누구도 잡아주지 않았던 것은 아니다.
그러나 대부분의 최신 편향성 제거 방법은 다른 작업에 대한 모델 성능을 저하시킵니다.
예를 들어, AI가 성 차별을 약화시키면 다음과 같은 짜증나는 결과가 나올 것입니다.
"아빠"의 성별이 남성인지 여성인지 구분할 수 없거나 문법 오류를 범하고 잊어버릴 것입니다. 세 번째 사람을 따르다 동사 + s.
더 짜증나는 것은 이 저하 메커니즘이 아직 연구되지 않았다는 것입니다.
아니면 성별 편견이 뚜렷한 모델을 버리세요 -
2018년 아마존은 이력서를 자동으로 선별하는 모델이 여성 구직자를 차별한다는 사실을 알아차리고 시스템을 숨겼습니다.
그렇지 않으면 성능 저하를 감수해야 합니다.
AI가 더 이상 실수하는 AI나 문제 있는 AI가 되지 않기를 바란다면 AI는 반드시 정신을 잃을 것이라고 말할 수 있을까요?
Tsinghua & Fudan 연구에서는 이를 거부합니다.
연구 분야는 사전 훈련된 언어 모델입니다.
다양한 NLP 작업에서 마법의 힘을 발휘하고 실용적인 시나리오가 많기 때문입니다.
온라인 광고, 자동 이력서 심사 시스템, 교육 및 기타 성별 편견이 있는 사회 사업에 사용하면 좋지 않습니다.
이 연구에서는 사전 훈련 과정에서 데이터 불균형이 모델의 성별 편견으로 이어지는 방식을 설명하는 데 사용되는 인과 프레임워크인 AI 성별 편향의 기원에 대한 이론적 프레임워크를 제안합니다.
특정 예측 작업을 수행할 때 사전 훈련된 모델의 성별 편향을 다음과 같이 정의합니다.
여기서 M은 모델, Y는 M으로 예측할 단어, B는 성별 정도입니다. M의 성별 편견
Y0|W는 정답이고, 남성 관련 단어일 확률은 절반이고, Y|W는 M의 예측입니다.
M이 예측한 Y가 불균형하고 성별에 분산된 경우 모델 M은 w를 기반으로 Y0을 예측하는 데 성별 편향이 있습니다.
사전 학습 과정에서 최적화 알고리즘은 사전 학습 데이터 D를 기반으로 임베딩 부분의 매개변수와 K를 결정합니다.
따라서 데이터 불균형 D는 모델이 잘못된 매개변수를 얻도록 오해합니다.
예를 들어 훈련 데이터에서 "의사"라는 단어가 남성 어휘와 더 자주 연관되는 경우 모델은 "의사"가 "남성 성별"과 연관되어 있다고 당연하게 여깁니다.
이 삼각형을 본 적이 있나요? 현재의 AI 수정 방법이 왜 AI를 바보로 만드는지 설명하는 데 사용해 보겠습니다.
사전 훈련된 모델을 적용하여 W를 기반으로 Y를 예측할 때 모델은 먼저 W를 추출된 X로 변환한 다음 X와 K를 기반으로 Y의 평균을 결정합니다.
다이브 부분의 잘못된 매개변수로 인해 W가 잘못된 X로 변환되었고 K도 잘못되었습니다.
한 번의 작업 후에 잘못된 X와 잘못된 K가 함께 Y 오류로 이어집니다.
이러한 오류와 상호 작용은 세 가지 잠재적 메커니즘을 통해 성별 편견으로 이어집니다.
즉, 이 시점에서 성별 편견이 생겨났습니다.
현재 교육용 AI의 편견 제거 방법은 어떻게 작동하나요?
현재의 모든 편향성 제거 방법은 세 가지 메커니즘 중 하나 또는 두 개에 개입합니다.
자세한 내용은 다음과 같습니다.
현재의 편향성 제거 방법에 존재하는 편향-성능 딜레마를 설명한 후 팀에서는 미세 조정 방법을 제안하려고 했습니다.
그들은 세 가지 메커니즘 중 D→X→Y가 성별 편견으로 이어지는 유일한 메커니즘이며 트랜스포머와는 아무런 관련이 없다는 것을 발견했습니다.
미세 조정 방법으로 D→X→Y로만 편향을 수정하면 모델의 성능을 유지하면서 성별 편향을 줄일 수 있습니다.
팀은 분해 정리를 바탕으로 수치 실험을 진행했습니다.
이 접근 방식은 두 배의 배당금을 지급할 수 있는 것으로 나타났습니다.
성능 저하를 피하면서 성별 편견을 줄입니다.
실험 후 팀원들은 사전 학습 모델의 두 가지 아키텍처인 단어 임베딩과 변환에서 AI 성별 편향의 원인을 찾았습니다.
이에 따라 연구팀은 마커 임베딩을 조정하여 성별 편견을 줄이는 C4D 방법을 제안했습니다.
이 방법의 핵심 아이디어는 잘못된 X를 수정하여 TDE 기능을 줄여 전체 편차를 줄이는 것입니다.
팀은 올바른 마커 임베딩이 무엇인지 모르지만 기본 실측 정보를 추론하기 위해 그라데이션 기반 방법을 개발했습니다.
모든 것이 준비되었습니다. 팀은 GPT-2 테스트 편향성 제거 결과에 C4D 방법을 적용했습니다.
결과에 따르면 모든 테스트 방법 중에서 C4D 방법은 소형, 중형 및 초대형 GPT-2에서 가장 낮은 복잡성을 나타냅니다.
대규모 GPT-2에서는 C4D의 곤혹도가 최고 점수보다 0.4% 나쁜 2위를 기록했습니다.
게다가 가장 높은 점수를 받은 방법은 C4D보다 성차별에 대한 편견 제거 효과가 낮습니다.
GLUE 데이터세트에서는 C4D 방식이 가장 높은 평균 점수를 달성했습니다.
이는 C4D가 성별 편견을 크게 줄이고 모델 성능을 유지할 수 있음을 보여줍니다.
이론적인 소개를 많이 들은 후, 직관적인 느낌을 주기 위해 그림을 살펴보겠습니다.
아래 세 장의 사진에서 파란색 점은 숨겨진 남성 편견을, 빨간색 점은 여성 편견을 나타냅니다.
그림 (a)는 AI에 대한 원래의 이해이고, 그림 (b)는 인간이 이유를 찾아 인내심을 갖고 설명 한 후 AI에 대한 이해입니다.
그림 (b)와 (c)에서는 남성 편향과 여성 편향의 임베딩이 더 집중되어 있어 편향 수준이 낮다는 것을 의미합니다.
동시에 그림 (c)의 임베딩은 여전히 그림 (a)의 토폴로지를 유지하고 있으며, 이것이 바로 C4D 방법이 모델 성능을 유지할 수 있는 이유임을 알 수 있습니다.
연구원: AI의 다른 편견도 줄일 수 있을 것” 이 문제를 지적했습니다.
AI 성능을 저하시키지 않고 AI 편견을 더욱 수정하려면 언어 모델의 메커니즘을 더 잘 이해해야 합니다.
어떻게 하면 더 잘 이해할 수 있나요?
한편, 우리는 AI의 다른 편견을 테스트하기 위해 본 연구에서 제안한 "C4D 방법"을 사용합니다.
이 실험의 주요 연구 목표는 직장 내 성 편견입니다.
사실 AI는 이전에도 끊임없이 온갖 정보를 학습해왔기 때문에 오는 모든 사람을 받아들이는 성격이었기 때문에, 결과적으로 종교 차별, 반흑백 선호 등 본질적인 사회 문제를 우연히 접하게 되었습니다. ..
그러므로 GPT-2로 가서 다른 편견을 제거한 최종 효과를 테스트하는 것이 좋습니다.
한편, 다양한 대형 모델에 "C4D 방식"을 시도해볼 수도 있습니다.
이 연구에 사용된 GPT-2 외에도 Google에서 개발한 NLP 고전 사전 학습 모델 BERT 등 좋은 테스트 시나리오이기도 합니다.
단, 다른 모델에 이식하려면 수정 템플릿을 다시 생성해야 하며, 다변수 TDE(Template Driven Extraction) 기능을 사용해야 할 수도 있습니다.
TDE 기능을 사용하면 문서 구조를 수정하지 않고도 콘텐츠를 바로 인덱스에 넣을 수 있습니다.
일부 네티즌들은 강아지 머리를 품에 안고 왔습니다:
일반적으로 사회에 진출하면 '걸림돌 AI'가 되는 것은 불가피합니다.하지만 '실수한 AI'의 방탕자를 되돌리고 싶다면 그에 맞는 방법과 이유를 찾아내면 그래도 좋은 결과가 있을 거에요~
그리고 연구위원 중 한 분이 칭화대학교 Yu Yang 팀은 개인 웨이보를 통해 앞으로 이틀 안에 AI 모델의 성차별을 문의하는 웹사이트도 개설될 것이라고 말했습니다.
기대하셔도 좋습니다!
논문 주소: https://arxiv.org/abs/2211.07350 참고 링크: https://weibo.com/1645372340/Mi4E43PUY#comment
위 내용은 실수한 AI를 구하려면 구타나 꾸중에만 의존해서는 안 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!