현재 AI 모델 개발 추세가 모델 중심에서 데이터 중심으로 바뀌면서 데이터 품질이 특히 중요해졌습니다.
과거 AI 개발 프로세스에서는 일반적으로 데이터 세트가 고정되어 있었고, 개발 작업은 기본 성능을 개선하기 위해 모델 아키텍처나 교육 프로세스를 반복하는 데 중점을 두었습니다. 이제 데이터 반복이 중심이 되면서 AI 모델을 훈련하고 테스트하는 데 사용되는 데이터를 평가, 필터링, 정리하고 주석을 달기 위한 보다 체계적인 방법이 필요합니다.
최근 스탠포드 대학 컴퓨터 공학과의 Weixin Liang, Li Feifei 등은 AI Data Key의 "Nature-Machine Intelligence"에서 "신뢰할 수 있는 AI를 위한 데이터 생성의 발전, 과제 및 기회"라는 제목의 기사를 공동으로 게재했습니다. 데이터 품질을 보장하기 위한 요소와 방법은 전체 프로세스의 각 링크에서 논의됩니다.
논문 주소: https://www.nature.com/articles/s42256-022-00516-1.epdf?sharing_token=VPzI-KWAm8tLG_BiXJnV9tRgN0jAjWel9jnR3ZoTv0MRS1pu9dXg73FQ0NTrwhu7 Hi_V BEr6peszIAFc6XO1tdlvV1lLJQtOvUFnSXpvW6_nu0Knc_dRekx6lyZNc6PcM1nslocIcut_qNW9OUg1IsbCfuL058R4MsYFqyzlb2E%3D
AI 데이터 흐름의 주요 단계 여기에는 데이터 설계(데이터 수집 및 기록), 데이터 개선(데이터 스크리닝, 정리, 주석, 향상), AI 모델 평가 및 모니터링을 위한 데이터 전략이 포함되며, 각 요소는 최종 AI 모델의 신뢰성에 영향을 미칩니다.
그림 1: 데이터 설계부터 평가까지 데이터 중심 접근 방식을 개발하기 위한 로드맵.
인공지능 애플리케이션을 식별한 후 AI 모델 개발의 첫 번째 단계는 데이터를 설계하는 것(즉, 데이터 소스를 식별하고 기록하는 것)입니다.
디자인은 반복적인 프로세스여야 합니다. 실험 데이터를 사용하여 초기 AI 모델을 개발한 다음 추가 데이터를 수집하여 모델의 한계를 패치해야 합니다. 설계의 주요 기준은 데이터가 작업에 적합하고 모델이 직면할 수 있는 다양한 사용자와 시나리오를 표현하기에 충분한 범위를 포함하는지 확인하는 것입니다.
그리고 현재 AI 개발에 사용되는 데이터 세트는 적용 범위가 제한적이거나 편향된 경우가 많습니다. 예를 들어 의료 AI에서는 알고리즘 개발에 사용되는 환자 데이터 수집이 지리적으로 불균형하게 분산되어 있어 AI 모델을 다양한 모집단에 적용하는 것이 제한될 수 있습니다.
데이터 범위를 개선하는 한 가지 방법은 데이터 생성에 더 넓은 커뮤니티를 참여시키는 것입니다. 이는 현재 이용 가능한 최대 공개 데이터 세트인 Common Voice 프로젝트에서 예시됩니다. 여기에는 166,000명 이상의 참가자가 76개 언어로 11,192시간의 음성 전사를 포함하고 있습니다.
그리고 대표 데이터를 얻기 어려운 경우 합성 데이터를 사용하여 적용 범위 공백을 메울 수 있습니다. 예를 들어, 실제 얼굴 수집에는 개인 정보 보호 문제 및 샘플링 편향이 포함되는 경우가 많지만, 이제 심층 생성 모델로 생성된 합성 얼굴은 데이터 불균형과 편향을 완화하는 데 사용됩니다. 의료 분야에서는 실제 환자 정보를 공개하지 않고도 지식 발견을 촉진하기 위해 합성 의료 기록을 공유할 수 있습니다. 로봇 공학에서 실제 과제는 최고의 테스트 베드이며, 충실도가 높은 시뮬레이션 환경을 사용하여 에이전트가 복잡하고 장기적인 작업에서 더 빠르고 안전하게 학습할 수 있도록 할 수 있습니다.
하지만 합성 데이터에도 몇 가지 문제가 있습니다. 합성 데이터와 실제 데이터 사이에는 항상 격차가 있기 때문에 합성 데이터를 학습한 AI 모델을 현실 세계로 옮길 때 성능 저하가 자주 발생합니다. 시뮬레이터가 소수 집단을 염두에 두고 설계되지 않은 경우 합성 데이터는 데이터 불균형을 악화시킬 수도 있습니다. AI 모델의 성능은 훈련 및 평가 데이터의 맥락에 크게 좌우되므로 표준화되고 표준화된 방식으로 데이터 설계의 맥락을 문서화하는 것이 중요합니다. 투명한 보고 .
이제 연구자들은 데이터 디자인 및 주석 프로세스에 대한 메타데이터를 캡처하기 위해 다양한 "데이터 영양 라벨"을 만들었습니다. 유용한 메타데이터에는 데이터세트 참가자의 성별, 인종, 지리적 위치에 대한 통계가 포함되어 있어 다루지 않는 과소대표 하위 그룹이 있는지 발견하는 데 도움이 될 수 있습니다. 데이터 출처는 데이터의 출처와 시간은 물론 데이터를 생성한 프로세스와 방법을 추적하는 일종의 메타데이터이기도 합니다.
메타데이터는 전용 데이터 디자인 문서에 저장할 수 있으며, 이는 데이터의 수명 주기와 사회 기술적 맥락을 관찰하는 데 매우 중요합니다. Zenodo와 같은 안정적이고 중앙 집중화된 데이터 저장소에 문서를 업로드할 수 있습니다.
초기 데이터 세트가 수집된 후에는 AI 개발에 보다 효과적인 데이터를 제공하기 위해 데이터를 더욱 개선해야 합니다. 이는 그림 2a에 표시된 것처럼 AI에 대한 모델 중심 접근 방식과 데이터 중심 접근 방식 간의 주요 차이점입니다. 모델 중심 연구는 일반적으로 주어진 데이터를 기반으로 하며 모델 아키텍처를 개선하거나 이 데이터를 최적화하는 데 중점을 둡니다. 반면, 데이터 중심 연구는 데이터 정리, 필터링, 주석, 향상 등의 프로세스를 통해 데이터를 체계적으로 개선하는 확장 가능한 방법에 중점을 두고 있으며, 원스톱 모델 개발 플랫폼을 사용할 수 있습니다.
그림 2a: AI 모델 중심 접근 방식과 데이터 중심 접근 방식 비교. MNIST, COCO 및 ImageNet은 AI 연구에서 일반적으로 사용되는 데이터 세트입니다.
데이터 세트에 노이즈가 매우 많은 경우 훈련 전에 데이터를 신중하게 스크리닝해야 하며, 이렇게 하면 모델의 신뢰성과 일반화가 크게 향상될 수 있습니다. 그림 2a의 비행기 이미지는 새 데이터 세트에서 제거해야 하는 잡음이 있는 데이터 포인트입니다.
그림 2b에서 이전에 사용된 대규모 피부과 데이터로 훈련된 4개의 최신 모델은 모두 훈련 데이터의 편향으로 인해 성능이 저하되었으며 특히 어두운 피부 이미지에 대한 진단이 좋지 않은 반면, 모델 1은 더 작은 피부과 데이터에 대해 훈련되었습니다. 고품질 데이터는 어두운 피부색과 밝은 피부색 모두에서 상대적으로 더 안정적입니다.
그림 2b: 밝은 피부와 어두운 피부 이미지에 대한 피부과 진단 테스트 성능.
그림 2c는 이미지 분류에 널리 사용되는 세 가지 딥 러닝 아키텍처인 ResNet, DenseNet 및 VGG가 시끄러운 이미지 데이터 세트에 대해 학습할 경우 성능이 좋지 않음을 보여줍니다. 데이터 Shapley 값 필터링 후 품질이 낮은 데이터는 삭제되고 더 깨끗한 데이터 하위 집합으로 훈련된 ResNet 모델의 성능이 훨씬 향상됩니다.
그림 2c: 데이터 필터링 전후의 다양한 모델의 객체 인식 테스트 성능 비교. 괄호 안의 숫자는 잡음이 있는 데이터를 필터링한 후 남은 훈련 데이터 포인트 수를 나타내며 결과는 5개의 무작위 시드에 대해 집계되며 음영 처리된 영역은 95% 신뢰 구간을 나타냅니다.
이것이 데이터 평가의 모든 것입니다. 다양한 데이터의 중요성을 정량화하고 품질 저하나 편향으로 인해 모델 성능에 해를 끼칠 수 있는 데이터를 필터링하는 것을 목표로 합니다.
이 글에서 저자는 데이터 정리에 도움이 되는 두 가지 데이터 평가 방법을 소개합니다.
한 가지 방법은 훈련 과정에서 다양한 데이터가 삭제될 때 AI 모델 성능의 변화를 측정하는 것인데, Shapley를 사용할 수 있습니다. 아래 그림 3a와 같이 데이터 값 또는 영향 근사치. 이 접근 방식을 사용하면 대규모 AI 모델의 효율적인 계산 평가가 가능합니다.
그림 3a: 데이터 평가. 데이터의 Shapley 값은 특정 포인트가 훈련에서 제거될 때(그림에서 희미한 다섯개 별표) 데이터의 다양한 하위 집합에 대해 훈련된 모델의 성능 변화를 측정하여 각 데이터 포인트( 다섯개 별 기호) 값. 색상은 카테고리 라벨을 나타냅니다.
또 다른 접근 방식은 불확실성을 예측하여 품질이 낮은 데이터 포인트를 감지하는 것입니다. 데이터 포인트에 대한 사람의 주석은 체계적으로 AI 모델 예측에서 벗어날 수 있으며, 신뢰도 학습 알고리즘은 이러한 편차를 감지할 수 있으며, ImageNet과 같은 일반적인 벤치마크에서 테스트 데이터의 3% 이상이 잘못 라벨이 지정된 것으로 밝혀졌습니다. 이러한 오류를 필터링하면 모델 성능이 크게 향상될 수 있습니다.
데이터 주석은 데이터 편향의 주요 원인이기도 합니다. AI 모델은 일정 수준의 무작위 라벨 노이즈를 허용할 수 있지만 편향된 오류로 인해 편향된 모델이 생성될 수 있습니다. 현재 우리는 주로 수동 주석에 의존하는데 이는 매우 비용이 많이 듭니다. 예를 들어 단일 LIDAR 스캔에 주석을 추가하는 데 드는 비용은 30달러를 초과할 수 있습니다. 이는 3차원 데이터이기 때문에 주석 작성자는 3차원 경계 상자를 그려야 합니다. 일반적인 주석 작업보다 까다롭습니다.
따라서 저자는 일관된 주석 규칙을 제공하기 위해 MTurk와 같은 크라우드소싱 플랫폼에서 주석 도구를 신중하게 조정해야 한다고 믿습니다. 의료 환경에서는 주석 작성자에게 전문 지식이 필요하거나 크라우드소싱할 수 없는 민감한 데이터가 있을 수 있다는 점을 고려하는 것도 중요합니다.
주석 비용을 줄이는 한 가지 방법은 데이터 프로그래밍입니다. 데이터 프로그래밍에서 AI 개발자는 더 이상 데이터 포인트에 수동으로 레이블을 지정할 필요가 없으며 대신 훈련 세트에 자동으로 레이블을 지정하는 프로그래밍 방식 레이블 지정 기능을 작성합니다. 그림 3b에 표시된 것처럼 사용자 정의 레이블 함수를 사용하여 각 입력에 대해 잠재적으로 노이즈가 있는 여러 레이블을 자동으로 생성한 후 노이즈를 줄이기 위해 여러 레이블 기능을 집계하는 추가 알고리즘을 설계할 수 있습니다.
그림 3b: 데이터 프로그래밍.
라벨링 비용을 줄이는 또 다른 "인간 참여형" 접근 방식은 가장 가치 있는 데이터에 우선순위를 부여하여 능동적 학습을 통해 데이터에 라벨을 붙일 수 있도록 하는 것입니다. 능동 학습은 최적의 실험 설계에서 아이디어를 도출합니다. 능동 학습에서 알고리즘은 정보 획득이 높은 점이나 모델이 불확실성을 갖는 점과 같이 레이블이 지정되지 않은 데이터 점 집합에서 가장 유용한 점을 선택한 다음 수동으로 수행합니다. 주석. 이 접근 방식의 이점은 필요한 데이터 양이 표준 지도 학습에 필요한 데이터 양보다 훨씬 적다는 것입니다.
마지막으로, 기존 데이터가 여전히 매우 제한적인 경우 데이터 증강은 데이터 세트를 확장하고 모델의 신뢰성을 향상시키는 효과적인 방법입니다.
컴퓨터 비전 데이터는 이미지 회전, 뒤집기 및 기타 디지털 변환을 통해 향상될 수 있으며, 텍스트 데이터는 자동 쓰기 스타일 변환을 통해 향상될 수 있습니다. 그림 3c에 표시된 것처럼 훈련 샘플 쌍을 보간하여 새로운 훈련 데이터를 생성하는 보다 복잡한 증강 기술인 최신 Mixup도 있습니다.
수동 데이터 향상 외에도 현재 AI 자동화 데이터 향상 프로세스도 인기 있는 솔루션입니다. 또한 레이블이 지정되지 않은 데이터를 사용할 수 있는 경우 초기 모델을 사용하여 예측을 수행한 다음(이러한 예측을 의사 레이블이라고 함) 실제 및 높은 신뢰도의 의사 레이블을 사용하여 결합된 데이터에 대해 더 큰 모델을 교육함으로써 레이블 확대를 달성할 수도 있습니다. 라벨.
그림 3c: Mixup은 기존 데이터를 보간하는 합성 데이터를 생성하여 데이터 세트를 확장합니다. 파란색 점은 훈련 세트의 기존 데이터 점을 나타내고 빨간색 점은 두 개의 기존 데이터 점을 보간하여 생성된 합성 데이터 점을 나타냅니다.
모델이 훈련된 후 AI 평가의 목표는 모델의 일반화 가능성과 신뢰성입니다.
이 목표를 달성하려면 모델의 실제 설정을 찾을 수 있도록 평가 데이터를 신중하게 설계해야 하며, 평가 데이터도 모델의 훈련 데이터와 충분히 달라야 합니다.
예를 들어 의학 연구에서 AI 모델은 일반적으로 소수 병원의 데이터를 기반으로 훈련됩니다. 이러한 모델이 새로운 병원에 배포되면 데이터 수집 및 처리의 차이로 인해 정확도가 떨어집니다. 모델의 일반화를 평가하기 위해서는 다양한 병원과 다양한 데이터 처리 파이프라인에서 평가 데이터를 수집해야 합니다. 다른 애플리케이션에서는 평가 데이터를 다양한 소스에서 수집해야 하며, 다양한 주석자가 훈련 데이터로 라벨을 지정하는 것이 좋습니다. 동시에 고품질 휴먼 라벨은 가장 중요한 평가로 남아 있습니다.
AI 평가의 중요한 역할은 AI 모델이 잘 개념화할 수 없는 훈련 데이터에서 잘못된 상관관계를 '지름길'로 사용하는지 여부를 판단하는 것입니다. 예를 들어, 의료 영상에서 데이터가 처리되는 방식(예: 자르기 또는 이미지 압축)은 모델에 의해 선택되는 가짜 상관관계(예: 바로가기)를 생성할 수 있습니다. 이러한 지름길은 표면적으로는 도움이 될 수 있지만 모델이 약간 다른 환경에 배포되면 치명적으로 실패할 수 있습니다.
체계적인 데이터 제거는 잠재적인 모델 "단축"을 조사하는 좋은 방법입니다. 데이터 제거에서 AI 모델은 허위 상관 표면 신호의 제거된 입력에 대해 훈련되고 테스트됩니다.
그림 4: 데이터 제거
모델 지름길을 감지하기 위해 데이터 제거를 사용하는 예는 일반적인 자연어 추론 데이터 세트에 대한 연구에서 AI 모델이 텍스트 입력의 전반부에만 훈련된 것으로 나타났습니다. 높은 정확도를 달성했습니다. 텍스트의 첫 번째 부분과 두 번째 부분 사이의 논리적 관계를 추론하는 데 있어서 인간은 동일한 입력에 대해 무작위 추측과 거의 동일한 수준의 성능을 발휘합니다. 이는 AI 모델이 이 작업을 수행하기 위한 지름길로 가짜 상관 관계를 활용한다는 것을 의미합니다. 연구팀은 텍스트의 부정이 태그와 높은 상관관계를 갖는 등 특정 언어 현상이 AI 모델에 의해 활용된다는 사실을 발견했습니다.
데이터 절제는 다양한 분야에서 널리 사용되고 있습니다. 예를 들어, 의료 분야에서는 AI가 잘못된 배경이나 이미지 품질의 인공물로부터 학습하는지 여부를 평가하는 방법으로 이미지의 생물학적으로 관련된 부분을 마스킹할 수 있습니다.
AI 평가는 전체 테스트 데이터 세트의 전체 성능 지표를 비교하는 것으로 제한되는 경우가 많습니다. 그러나 AI 모델이 전체 데이터 수준에서 잘 작동하더라도 데이터의 특정 하위 그룹에 대해서는 여전히 체계적인 오류가 표시될 수 있으며 이러한 오류의 클러스터를 특성화하면 모델의 한계를 더 잘 이해할 수 있습니다.
메타데이터를 사용할 수 있는 경우 세분화된 평가 방법은 가능할 때마다 데이터세트에서 참가자의 성별, 성별, 인종 및 지리적 위치별로 평가 데이터를 분할해야 합니다(예: "아시아 노인 남성" 또는 "미국 원주민 여성"). 각 데이터 하위 그룹에 대한 모델 성능을 수량화합니다. 다중 정확도 감사는 AI 모델의 성능이 좋지 않은 데이터 하위 그룹을 자동으로 검색하는 알고리즘입니다. 여기서 감사 알고리즘은 메타데이터를 사용해 원본 모델의 오류를 예측하고 클러스터링한 후 AI 모델이 어떤 실수를 했고 왜 발생했는지 등의 질문에 설명 가능한 답변을 제공하도록 훈련됩니다.
메타데이터를 사용할 수 없는 경우 Domino와 같은 방법은 평가 모델이 오류가 발생하기 쉬운 데이터 클러스터를 자동으로 식별하고 텍스트 생성을 사용하여 이러한 모델 오류에 대한 자연어 설명을 생성합니다.
현재 대부분의 AI 연구 프로젝트는 데이터 세트를 한 번만 개발하지만 실제 AI 사용자는 데이터 세트와 모델을 지속적으로 업데이트해야 하는 경우가 많습니다. 지속적인 데이터 개발은 다음과 같은 과제를 가져옵니다.
첫째, 데이터와 AI 작업은 모두 시간이 지남에 따라 변경될 수 있습니다. 예를 들어 도로에 새로운 차량 모델이 나타날 수도 있고(예: 도메인 이동) 개발자가 인식하고 싶어할 수도 있습니다. 레이블의 분류를 변경하는 새로운 개체 클래스(예: 일반 버스와 다른 스쿨버스 유형). 수백만 시간의 오래된 태그 데이터를 버리는 것은 낭비이므로 업데이트가 필수적입니다. 또한 새로운 데이터에 가중치를 부여하고 각 하위 작업에 적절한 데이터를 사용하도록 훈련 및 평가 지표를 신중하게 설계해야 합니다.
둘째, 지속적으로 데이터를 획득하고 사용하려면 사용자는 데이터 중심 AI 프로세스의 대부분을 자동화해야 합니다. 이 자동화에는 알고리즘을 사용하여 주석자에게 보낼 데이터와 이를 사용하여 모델을 재교육하는 방법을 선택하고 프로세스에 문제가 있는 경우(예: 정확도 지표가 떨어지는 경우) 모델 개발자에게만 알리는 작업이 포함됩니다. "MLOps(기계 학습 운영)" 추세의 일환으로 업계 기업에서는 기계 학습 수명 주기를 자동화하는 도구를 사용하기 시작했습니다.
위 내용은 스탠포드 대학 Fei-Fei Li 팀의 새로운 연구에서는 데이터를 설계, 개선 및 평가하는 것이 신뢰할 수 있는 인공 지능을 달성하는 열쇠라는 사실을 발견했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!