세상은 데이터로 가득 차 있습니다. 인간과 컴퓨터가 생성한 이미지, 비디오, 스프레드시트, 오디오 및 텍스트가 인터넷에 넘쳐 우리를 정보의 바다에 빠뜨립니다.
전통적으로 인간은 데이터를 분석하여 더 많은 정보를 바탕으로 결정을 내리고 데이터 패턴의 변화를 제어하기 위해 시스템을 조정하려고 합니다. 그러나 들어오는 정보의 양이 증가함에 따라 이를 이해하는 능력이 감소하므로 다음과 같은 과제에 직면하게 됩니다.
수동 방식이 아닌 자동화된 방식으로 의미를 도출하기 위해 이 모든 데이터를 어떻게 사용합니까?
여기서 머신러닝이 활용됩니다. 이 기사에서는 다음을 소개합니다.
이러한 예측은 "훈련 데이터"라는 일련의 데이터에서 패턴을 학습하는 기계에 의해 이루어지며, 이는 사람들의 삶을 개선하기 위한 추가 기술 개발을 촉진할 수 있습니다.
머신러닝은 명시적인 프로그래밍 없이도 컴퓨터가 예제와 경험을 통해 자동으로 학습하고 인간의 의사결정을 모방할 수 있게 하는 개념입니다.
머신 러닝은 알고리즘과 통계 기법을 사용하여 데이터에서 학습하고 데이터에서 패턴과 숨겨진 통찰력을 도출하는 인공 지능의 한 분야입니다.
이제 머신러닝의 모든 것을 더 자세히 살펴보겠습니다.
머신러닝에는 수만 개의 알고리즘이 있으며, 학습 스타일이나 해결하려는 문제의 성격에 따라 그룹화할 수 있습니다. 그러나 모든 기계 학습 알고리즘에는 다음과 같은 주요 구성 요소가 포함되어 있습니다.
위는 머신러닝 알고리즘의 4가지 구성요소를 자세히 분류한 것입니다.
설명: 과거의 데이터를 수집하고 정리하여 이해하기 쉽게 제시하는 시스템입니다.
주된 초점은 결과에서 추론이나 예측을 도출하기보다는 기업에서 이미 일어나고 있는 일을 파악하는 것입니다. 설명 분석은 예측 및 처방 분석에 필요한 복잡한 계산 대신 산술, 평균, 백분율과 같은 간단한 수학적 및 통계 도구를 사용합니다.
기술적 분석은 주로 과거 데이터를 분석하고 추론하는 반면 예측 분석은 가능한 미래 상황을 예측하고 이해하는 데 중점을 둡니다.
과거 데이터를 보고 과거 데이터 패턴과 추세를 분석하면 앞으로 어떤 일이 일어날지 예측할 수 있습니다.
처방적 분석은 어떻게 행동해야 하는지 알려주고, 기술적 분석은 과거에 무슨 일이 일어났는지 알려줍니다. 예측 분석은 과거로부터 학습하여 미래에 어떤 일이 일어날지 알려줍니다. 하지만 무슨 일이 일어나고 있는지에 대한 통찰력을 얻은 후에는 어떻게 해야 합니까?
이것은 규범적인 분석입니다. 이는 시스템이 과거 지식을 사용하여 사람이 취할 수 있는 조치에 대해 여러 권장 사항을 제시하는 데 도움이 됩니다. 처방적 분석은 시나리오를 시뮬레이션하고 원하는 결과를 달성하기 위한 경로를 제공할 수 있습니다.
ML 알고리즘 학습은 세 가지 주요 부분으로 나눌 수 있습니다.
기계 학습 모델은 데이터에서 패턴을 학습하고 이 지식을 적용하여 예측하도록 설계되었습니다. 문제는 모델이 어떻게 예측을 하는가입니다.
프로세스는 매우 기본입니다. 입력 데이터(레이블이 지정되거나 레이블이 지정되지 않음)에서 패턴을 찾고 이를 적용하여 결과를 도출합니다.
기계 학습 모델은 자신이 내린 예측을 실제와 비교하도록 설계되었습니다. 목표는 올바른 방향으로 학습하고 있는지 이해하는 것입니다. 이는 모델의 정확성을 결정하고 모델 교육을 개선할 수 있는 방법에 대한 힌트를 제공합니다.
모델의 궁극적인 목표는 예측을 개선하는 것입니다. 즉, 알려진 결과와 해당 모델 추정치 간의 차이를 줄이는 것입니다.
모델은 가중치를 지속적으로 업데이트하여 훈련 데이터 샘플에 더 잘 적응해야 합니다. 알고리즘은 모델의 정확도와 관련하여 최대값을 얻을 때까지 루프에서 작동하여 결과를 평가 및 최적화하고 가중치를 업데이트합니다.
머신러닝에는 크게 네 가지 유형이 있습니다.
지도 학습에서는 이름에서 알 수 있듯이 기계가 지도에 따라 학습합니다.
이 작업은 기계가 입력이 무엇인지, 출력이 무엇인지 이해할 수 있도록 컴퓨터에 레이블이 지정된 데이터 세트를 제공함으로써 수행됩니다. 여기서 인간은 기계가 패턴을 학습하는 레이블이 지정된 훈련 데이터(입력-출력 쌍)를 모델에 제공하는 가이드 역할을 합니다.
이전 데이터 세트로부터 입력과 출력의 관계를 학습하면 기계는 새로운 데이터의 출력 값을 쉽게 예측할 수 있습니다.
지도 학습은 어디에서 사용할 수 있나요?
답은 입력 데이터에서 찾아야 할 것과 출력으로 원하는 것이 무엇인지 알 때입니다.
지도 학습 문제의 주요 유형에는 회귀 문제와 분류 문제가 포함됩니다.
비지도 학습은 지도 학습과 정반대로 작동합니다.
레이블이 지정되지 않은 데이터를 사용합니다. 기계는 데이터를 이해하고 숨겨진 패턴을 찾아 그에 따라 예측을 해야 합니다.
여기서 기계는 인간이 무엇을 찾아야 할지 지정하지 않고도 데이터에서 숨겨진 패턴을 독립적으로 도출한 후 새로운 발견을 제공합니다.
비지도 학습 문제의 주요 유형에는 클러스터링 및 연관 규칙 분석이 포함됩니다.
강화 학습에는 작업을 수행하여 환경에서 행동하는 방법을 배우는 에이전트가 포함됩니다.
이러한 작업의 결과에 따라 피드백을 제공하고 향후 경로를 조정합니다. 모든 좋은 작업에 대해 에이전트는 긍정적인 피드백을 받고, 모든 나쁜 작업에 대해 에이전트는 부정적인 피드백이나 처벌을 받습니다.
강화 학습은 레이블이 지정된 데이터 없이 학습합니다. 레이블이 지정된 데이터가 없기 때문에 에이전트는 자신의 경험을 바탕으로만 학습할 수 있습니다.
준지도 학습은 지도 학습과 비지도 학습의 중간 상태입니다.
각 학습에서 긍정적인 측면을 취합니다. 즉, 더 작은 레이블이 지정된 데이터 세트를 사용하여 분류를 안내하고 레이블이 없는 더 큰 데이터 세트에서 감독되지 않은 기능 추출을 수행합니다.
준지도 학습 사용의 주요 장점은 모델을 훈련할 레이블이 지정된 데이터가 충분하지 않거나 인간이 데이터에서 무엇을 찾아야 할지 모르기 때문에 데이터에 레이블을 지정할 수 없는 경우 문제를 해결할 수 있다는 것입니다.
기계 학습은 Google이나 Youtube 검색 엔진과 같은 비즈니스를 포함하여 오늘날 거의 모든 기술 회사의 핵심입니다.
아래에는 여러분이 익숙할 수 있는 기계 학습의 실제 적용 사례를 정리했습니다.
차량은 도로에서 다양한 상황에 직면합니다.
자율 주행 자동차가 인간보다 더 나은 성능을 발휘하려면 변화하는 도로 상황과 다른 차량의 동작을 학습하고 이에 적응해야 합니다.
자율주행차는 센서와 카메라를 통해 주변 환경에 대한 데이터를 수집하고 이를 해석하고 그에 따라 반응합니다. 지도 학습을 사용하여 주변 객체를 식별하고, 비지도 학습을 사용하여 다른 차량의 패턴을 식별한 다음, 최종적으로 강화 알고리즘의 도움을 받아 그에 따라 조치를 취합니다.
이미지 분석은 이미지에서 다양한 정보를 추출하는 데 사용됩니다.
제조 결함 확인, 스마트 시티의 자동차 교통 분석, Google Lens와 같은 시각적 검색 엔진과 같은 분야에 응용 프로그램이 있습니다.
주요 아이디어는 딥 러닝 기술을 사용하여 이미지에서 특징을 추출한 다음 이러한 특징을 객체 감지에 적용하는 것입니다.
요즘 기업에서는 AI 챗봇을 사용하여 고객 지원 및 판매를 제공하는 것이 매우 일반적입니다. AI 챗봇은 연중무휴 24시간 지원을 제공하여 기업이 대량의 고객 문의를 처리할 수 있도록 지원함으로써 지원 비용을 절감하고 추가 수익을 창출하며 고객 만족도를 높입니다.
AI 로봇공학은 자연어 처리(NLP)를 사용하여 텍스트를 처리하고 쿼리 키워드를 추출한 후 그에 따라 응답합니다.
진실은 다음과 같습니다. 의료 영상 데이터는 가장 풍부하고 가장 복잡한 정보 소스 중 하나입니다.
수천 개의 의료 이미지를 수동으로 분석하는 것은 지루한 작업이며 더 효율적으로 사용할 수 있는 병리학자의 귀중한 시간을 낭비합니다.
하지만 단지 시간을 절약하는 것만이 아닙니다. 인공물이나 결절과 같은 작은 특징은 육안으로 보이지 않아 질병 진단이 지연되고 잘못된 예측이 발생할 수 있습니다. 이것이 바로 이미지에서 특징을 추출하는 데 사용할 수 있는 신경망과 관련된 딥러닝 기술을 사용하는 데 많은 잠재력이 있는 이유입니다.
전자상거래 분야가 확대되면서 온라인 거래 건수가 증가하고 결제 수단이 다양해지는 것을 확인할 수 있습니다. 불행히도 일부 사람들은 이러한 상황을 이용합니다. 오늘날 사기꾼은 고도로 숙련되어 있으며 매우 빠르게 새로운 기술을 채택할 수 있습니다.
이것이 바로 데이터 패턴을 분석하고, 정확한 예측을 하며, 가짜 로그인 시도나 피싱 공격과 같은 온라인 사이버 보안 위협에 대응할 수 있는 시스템이 필요한 이유입니다.
예를 들어, 사기 방지 시스템은 과거 구매 장소나 온라인 접속 기간을 기반으로 구매가 합법적인지 여부를 알아낼 수 있습니다. 마찬가지로 누군가가 온라인이나 전화를 통해 귀하를 사칭하려고 하는지 감지할 수 있습니다.
추천 알고리즘의 이러한 관련성은 과거 데이터 연구를 기반으로 하며 사용자 선호도 및 관심사를 포함한 여러 요소에 따라 달라집니다.
JD.com 또는 Douyin과 같은 회사는 추천 시스템을 사용하여 사용자/구매자에게 관련 콘텐츠나 제품을 선별하고 표시합니다.
대부분의 경우 기계 학습 알고리즘의 성능이 저하되는 이유는 과소적합과 과적합 때문입니다.
머신러닝 모델 학습의 맥락에서 이러한 용어를 분석해 보겠습니다.
모델의 유연성이 거의 없기 때문에 새로운 데이터 포인트를 예측할 수 없습니다. 즉, 주어진 사례에만 너무 집중하여 더 큰 그림을 보지 못한다는 것입니다.
과소적합과 과적합의 원인은 무엇인가요?
더 일반적인 경우에는 훈련에 사용되는 데이터가 깨끗하지 않고 노이즈나 가비지 값이 많이 포함되어 있거나 데이터 크기가 너무 작은 경우가 포함됩니다. 그러나 좀 더 구체적인 이유가 있습니다.
그것들을 살펴보겠습니다.
언더피팅은 다음과 같은 이유로 발생할 수 있습니다:
이런 상황은 다음과 같은 상황에서 발생할 수 있습니다. 과적합:
모든 기계 학습 모델의 정확도는 데이터 세트의 차원성에 정비례합니다. 하지만 특정 임계값까지만 작동합니다.
데이터세트의 차원성은 데이터세트에 존재하는 속성/특징의 수를 나타냅니다. 차원의 수가 기하급수적으로 증가하면 모델을 혼란스럽게 하는 필수적이지 않은 속성이 추가되어 기계 학습 모델의 정확도가 떨어집니다.
우리는 기계 학습 모델 훈련과 관련된 이러한 어려움을 "차원성의 저주"라고 부릅니다.
기계 학습 알고리즘은 품질이 낮은 훈련 데이터에 민감합니다.
잘못된 데이터나 누락된 값으로 인해 데이터에 노이즈가 발생하여 데이터 품질이 저하될 수 있습니다. 훈련 데이터의 상대적으로 작은 오류라도 시스템 출력에서 대규모 오류로 이어질 수 있습니다.
알고리즘의 성능이 좋지 않은 경우 일반적으로 수량 부족/기울기/잡음이 있는 데이터 또는 데이터를 설명하는 기능 부족과 같은 데이터 품질 문제로 인해 발생합니다.
따라서 기계 학습 모델을 훈련하기 전에 고품질 데이터를 얻기 위해 데이터 정리가 필요한 경우가 많습니다.
위 내용은 하나의 기사로 머신러닝이 무엇인지 이해하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!