번역자 | Zhu Xianzhong
Reviewer | Sun Shujuan
그림 1: 원작자가 직접 디자인한 Iluminado 프로젝트 표지
2019년에 세계보건기구(WHO)는 전 세계적으로 시각 장애가 있는 사람은 약 22억 명에 달하며, 그 중 최소 10억 명은 예방할 수 있거나 아직 치료를 받고 있습니다. 안과 진료와 관련하여 세계는 예방, 치료, 재활 서비스의 보장 범위와 품질의 불평등을 포함하여 많은 문제에 직면해 있습니다. 훈련된 안과 진료 직원이 부족하고 안과 진료 서비스가 주요 의료 시스템에 제대로 통합되지 않습니다. 나의 목표는 이러한 문제를 함께 해결하기 위한 행동을 장려하는 것입니다. 이 글에서 소개하는 프로젝트는 제가 현재 진행하고 있는 데이터 사이언스 캡스톤 프로젝트인 Iluminado의 일부입니다.
캡스톤 프로젝트의 설계 목표
이 기사 프로젝트를 작성하는 목적은 궁극적으로 저소득층 가족이 쉽게 접근할 수 있고 저렴한 비용으로 초기 질병 위험 진단을 수행할 수 있는 딥러닝 앙상블 모델을 훈련하는 것입니다. 내 모델 절차를 사용하여 안과 의사는 망막 안저 사진을 기반으로 즉각적인 개입이 필요한지 여부를 결정할 수 있습니다.
프로젝트 데이터 세트 소스
OphthAI는 Retinal Fundus Multi-Disease Image Dataset("RFMiD")라는 공개적으로 사용 가능한 이미지 데이터 세트를 제공합니다. 여기에는 3,200개의 이미지가 포함되어 있습니다. 안저 이미지는 세 개의 서로 다른 안저 카메라로 촬영되었으며 주석이 추가되었습니다. 두 명의 수석 망막 전문가가 판결된 합의를 바탕으로 작성했습니다.
이 이미지는 2009~2010년에 수행된 수천 건의 검사에서 추출되었으며, 일부 고품질 이미지와 상당히 낮은 품질의 이미지를 모두 선택하여 데이터세트를 더욱 어렵게 만들었습니다.
데이터 세트는 훈련 세트(60% 또는 1920개 이미지), 평가 세트(20% 또는 640개 이미지) 및 테스트 세트(20% 및 640개 이미지)를 포함하여 세 부분으로 나뉩니다. 평균적으로 훈련 세트, 평가 세트, 테스트 세트에서 질병이 있는 사람의 비율은 각각 60±7%, 20±7%, 20±5%였습니다. 이 데이터 세트의 기본 목적은 일상적인 임상 실습에서 발생하는 다양한 안과 질환을 해결하는 것이며, 총 45개의 질병/병리 범주가 식별됩니다. 이러한 레이블은 RFMiD_Training_Labels.CSV, RFMiD_Validation_Labels.SSV 및 RFMiD_Testing_Labels.CSV의 세 가지 CSV 파일에서 찾을 수 있습니다.
이미지 출처
아래 이미지는 안저 카메라라는 도구를 사용하여 촬영되었습니다. 안저 카메라는 눈 뒤쪽의 망막층인 안저를 촬영하는 데 사용되는 플래시 카메라에 부착된 특수 저배율 현미경입니다.
요즘에는 대부분의 안저 카메라가 휴대용이므로 환자는 렌즈를 직접 들여다보기만 하면 됩니다. 그 중 밝게 깜박이는 부분은 안저 영상이 촬영되었음을 나타냅니다.
휴대용 카메라는 다양한 위치로 휴대할 수 있고 휠체어 사용자와 같이 특별한 도움이 필요한 환자를 수용할 수 있다는 장점이 있습니다. 또한 필요한 교육을 받은 직원이라면 누구나 카메라를 작동할 수 있어 소외된 당뇨병 환자가 연간 검진을 빠르고 안전하며 효율적으로 받을 수 있습니다.
안저 망막 영상 시스템의 사진 상황:
그림 2: 각 시각적 특성에 따라 촬영된 이미지: (a) 당뇨병성 망막증(DR), (b) 연령 관련 황반 변성(ARMD) 및 (c) 중간 정도의 헤이즈(MH).
최종 진단은 어디서 하나요?
초기 검진 과정은 딥러닝을 통해 보조할 수 있지만, 최종 진단은 세극등 검사를 통해 안과 의사가 내립니다.
이 과정은 생체현미경 진단이라고도 하며 살아있는 세포를 검사하는 과정입니다. 의사는 환자의 눈에 이상이 있는지 확인하기 위해 현미경 검사를 실시할 수 있습니다.
그림 3: 세극등 검사 그림
망막 이미지 분류에 딥 러닝 적용
기존 기계 학습 알고리즘과 달리 심층 합성곱 신경망(CNN)은 다층 모델을 사용하여 자동 추출 및 분류를 수행할 수 있습니다. 원시 데이터의 기능.
최근 학계에서는 컨볼루셔널 신경망(CNN)을 활용해 당뇨병성 망막증, 녹내장 등 다양한 안구 질환을 비정상적인 결과(AUROC>0.9)로 식별하는 방법에 대한 많은 논문이 발표되었습니다.
데이터 측정항목
AUROC 점수는 ROC 곡선을 여러 임계값을 동시에 처리할 때 모델의 성능을 설명하는 숫자로 요약합니다. AUROC 점수 1은 만점을 나타내고, AUROC 점수 0.5는 무작위 추측에 해당한다는 점은 주목할 가치가 있습니다.
그림 4: ROC 곡선의 도식적 표현
사용된 방법 - 교차 엔트로피 손실 함수
교차 엔트로피는 일반적으로 기계 학습에서 손실 함수로 사용됩니다. 교차 엔트로피는 엔트로피의 정의를 기반으로 하는 정보 이론 분야의 척도이며 일반적으로 두 확률 분포 간의 차이를 계산하는 데 사용되는 반면, 교차 엔트로피는 두 분포 간의 총 엔트로피를 계산하는 것으로 생각할 수 있습니다.
교차 엔트로피는 로그 손실이라고 하는 로지스틱 손실과도 관련이 있습니다. 이 두 가지 측정값은 서로 다른 소스에서 나왔지만 분류 모델의 손실 함수로 사용되는 경우 두 방법 모두 동일한 수량을 계산하며 서로 바꿔서 사용할 수 있습니다.
(구체적인 내용은 https://machinelearningmastery.com/logistic-regression-with-maximum-likelihood-estimation/을 참조하세요.)
교차 엔트로피란 무엇인가요?
교차 엔트로피는 주어진 무작위 변수 또는 일련의 사건에 대한 두 확률 분포 간의 차이를 측정한 것입니다. 정보는 이벤트를 인코딩하고 전송하는 데 필요한 비트 수를 수량화한다는 것을 기억하실 것입니다. 가능성이 낮은 이벤트에는 더 많은 정보가 포함되는 경향이 있는 반면, 확률이 높은 이벤트에는 더 적은 정보가 포함되는 경향이 있습니다.
정보 이론에서는 사건의 "놀라움"을 설명하는 것을 좋아합니다. 이벤트가 발생할 가능성이 낮을수록 더 놀라운 일이 됩니다. 즉, 더 많은 정보가 포함되어 있음을 의미합니다.
- 낮은 확률 이벤트(놀라움): 추가 정보.
- 높은 확률의 이벤트(놀랍지 않음): 정보가 적습니다.
사건 P(x)의 확률이 주어지면 정보 h(x)는 사건 x에 대해 다음과 같이 계산될 수 있습니다.
h(x) = -log(P(x))
그림 4: 완벽한 그림( 이미지 출처: Vlastimil Martinek)
엔트로피는 확률 분포에서 무작위로 선택된 이벤트를 전송하는 데 필요한 비트 수입니다. 치우친 분포는 낮은 엔트로피를 갖는 반면, 동일한 사건 확률을 갖는 분포는 일반적으로 더 높은 엔트로피를 갖습니다.
그림 5: 예측 확률에 대한 목표 비율의 완벽한 그림(이미지 출처: Vlastimil Martinek)
비뚤어진 확률 분포는 "놀라움"이 적고 결과적으로 엔트로피가 더 낮습니다. 이벤트가 지배적입니다. 상대적으로 말하면, 평형 분포는 사건이 발생할 확률이 동일하기 때문에 더 놀랍고 더 높은 엔트로피를 갖습니다.
- 치우친 확률 분포(당연하지 않음): 낮은 엔트로피.
- 균형 확률 분포 (놀랍게도): 높은 엔트로피.
엔트로피 H(x)는 아래 그림과 같이 x 이산 상태의 x 집합과 해당 확률 P(x)가 있는 확률 변수에 대해 계산할 수 있습니다.
그림 6: 다단계 교차 엔트로피 공식(이미지 출처: Vlastimil Martinek)
다중 범주 분류 - 다중 범주 교차 엔트로피를 사용합니다. 교차 엔트로피의 특정 응용 사례입니다. 원-핫 인코딩 벡터 방식이 사용됩니다. (관심 있는 독자는 Vlastimil Martinek의 기사를 참조할 수 있음)
그림 7: 팬더와 고양이 손실 계산의 완벽한 분해 다이어그램 (그림 출처: Vlastimil Martinek)
그림 8: 손실 가치 그림 9 : 손실 가치의 완벽한 분해 그림 2 (이미지 출처: Vlastimil Martinek) 그림 9: 확률과 손실 정보 (이미지 출처: Vlastimil Martinek)의 시각적 표현
이진 교차 엔트로피는 어떻습니까?
그림 10: 분류 교차 엔트로피 공식 그림(이미지 출처: Vlastimil Martinek)
우리 프로젝트에서는 이진 분류(이진 교차 엔트로피 체계)를 사용하기로 선택했습니다. 즉, 대상은 0 또는 1 교차 엔트로피 방식. 목표를 각각 [0,1] 또는 [1,0]의 핫 인코딩 벡터로 변환하고 예측하면 교차 엔트로피 공식을 사용하여 계산할 수 있습니다.
그림 11: 이진 교차 엔트로피 계산 공식 그림(이미지 출처: Vlastimil Martinek)
비대칭 손실 알고리즘을 사용하여 불균형 데이터 처리
일반적인 다중 레이블 모델 환경에서 데이터 세트의 특징에는 양수 레이블과 음수 레이블의 수가 불균형할 수 있습니다. 이 시점에서 부정적인 레이블을 선호하는 데이터 세트의 경향은 최적화 프로세스에 지배적인 영향을 미치고 궁극적으로 긍정적인 레이블의 기울기가 과소 강조되어 예측 결과의 정확도가 감소합니다.
이것이 바로 제가 현재 선택한 데이터 세트가 직면한 상황입니다.
이 프로젝트는 BenBaruch et al.이 개발한 비대칭 손실 알고리즘을 사용합니다(그림 12 참조). 이는 다중 레이블 분류를 해결하는 방법이지만 카테고리에도 심각한 불균형 분포 상황이 있습니다.
제가 생각해낸 방식은 크로스 엔트로피의 양수 성분과 음수 성분을 비대칭적으로 수정하여 음수 라벨 부분의 가중치를 줄이고, 최종적으로 처리하기 더 어려운 양수 라벨 부분의 가중치를 강조하는 것입니다. .
그림 12: 비대칭 다중 레이블 분류 알고리즘(2020, 저자: Ben-Baruch et al.)
테스트할 아키텍처
요약하자면, 이 프로젝트는 다음에 표시된 것을 사용합니다. 그림 아키텍처:
그림 13(이미지 출처: Sixu)
위 아키텍처에 사용되는 주요 알고리즘은 주로 다음과 같습니다. VGG16
- 또한, 위의 관련 알고리즘은 본 글의 캡스톤 프로젝트가 완료되면 내용이 업데이트 될 예정입니다! 관심 있는 독자분들은 계속 지켜봐 주시기 바랍니다!
- 번역가 소개 Zhu Xianzhong, 51CTO 커뮤니티 편집자, 51CTO 전문 블로거, 강사, 웨이팡 대학의 컴퓨터 교사이자 프리랜스 프로그래밍 업계의 베테랑입니다.
- 원제:
- Deep Ensemble Learning for Retinal Image Classification(CNN)
, 저자: Cathy Kam
위 내용은 망막 이미지 분류를 위한 심층 앙상블 학습 알고리즘의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

OpenAi의 최신 멀티 모드 모델 인 GPT-Image-1은 ChatGpt 내 및 API를 통해 이미지 생성을 혁신합니다. 이 기사는 기능, 사용 및 응용 프로그램을 탐구합니다. 목차 GPT-IMAGE-1 이해 GPT-Image-1의 주요 기능

성공적인 기계 학습의 경우 데이터 전처리가 가장 중요하지만 실제 데이터 세트에는 종종 오류가 포함됩니다. CleanLab은 파이썬 패키지를 사용하여 자신감있는 학습 알고리즘을 구현하는 효율적인 솔루션을 제공합니다. 감지를 자동화합니다

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

Dreamweaver Mac版
시각적 웹 개발 도구

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

WebStorm Mac 버전
유용한 JavaScript 개발 도구
