현대 산업 환경은 센서와 스마트 구성 요소로 가득 차 있으며 이러한 모든 장치가 함께 풍부한 데이터를 생성합니다. 오늘날 대부분의 공장에서 아직 활용되지 않은 이 데이터는 다양하고 흥미로운 새로운 애플리케이션을 지원합니다. 실제로 IBM에 따르면 평균 공장에서는 매일 1TB의 생산 데이터가 생성됩니다. 그러나 실행 가능한 통찰력으로 전환되는 데이터는 약 1%에 불과합니다.
머신 러닝(ML)은 이 데이터를 활용하고 막대한 가치를 창출하도록 설계된 기본 기술입니다. 기계 학습 시스템은 교육 데이터를 사용하여 명시적인 지침 없이 특정 작업을 수행하도록 시스템을 가르치는 수학적 모델을 구축할 수 있습니다.
ML은 데이터에 따라 작동하는 알고리즘을 사용하여 주로 사람의 개입 없이 결정을 내립니다. 산업 자동화에서 기계 학습의 가장 일반적인 형태는 지도형 기계 학습으로, 인간이 라벨을 붙인 대량의 과거 데이터를 사용하여 모델을 훈련합니다(즉, 인간이 감독하는 알고리즘 훈련).
이 기능은 베어링 결함, 윤활 불량, 제품 결함 등 잘 알려진 문제에 유용합니다. 지도 기계 학습이 부족한 경우는 충분한 과거 데이터를 사용할 수 없거나, 라벨링에 시간이 많이 걸리거나 비용이 많이 들거나, 사용자가 데이터에서 원하는 것이 무엇인지 정확히 알지 못하는 경우입니다. 이것이 비지도 머신러닝이 작동하는 곳입니다.
비지도 기계 학습은 패턴을 인식하고 데이터의 이상치를 찾아내는 데 능숙한 알고리즘을 사용하여 레이블이 없는 데이터에서 작동하는 것을 목표로 합니다. 적절하게 적용된 비지도 기계 학습은 상태 모니터링 및 성능 테스트부터 사이버 보안 및 자산 관리에 이르기까지 다양한 산업 자동화 사용 사례를 제공합니다.
지도 기계 학습은 비지도 기계 학습보다 수행하기가 더 쉽습니다. 적절하게 훈련된 모델을 사용하면 매우 일관되고 신뢰할 수 있는 결과를 제공할 수 있습니다. 지도형 기계 학습에는 모든 관련 사례를 포함하는 데 필요한 만큼 많은 양의 과거 데이터가 필요할 수 있습니다. 즉, 제품 결함을 감지하려면 데이터에 결함이 있는 제품의 사례가 충분해야 합니다. 이러한 대규모 데이터 세트에 레이블을 지정하는 데는 시간과 비용이 많이 소요될 수 있습니다. 게다가 훈련 모델은 예술입니다. 좋은 결과를 얻으려면 적절하게 구성된 많은 양의 데이터가 필요합니다.
요즘에는 AutoML과 같은 도구를 사용하여 다양한 ML 알고리즘을 벤치마킹하는 프로세스가 크게 단순화되었습니다. 동시에 훈련 프로세스를 과도하게 제한하면 모델이 훈련 세트에서는 잘 작동하지만 실제 데이터에서는 성능이 저하될 수 있습니다. 또 다른 주요 단점은 지도 머신러닝이 데이터의 예상치 못한 추세를 식별하거나 새로운 현상을 발견하는 데 그다지 효과적이지 않다는 것입니다. 이러한 유형의 애플리케이션에서는 비지도 기계 학습이 더 나은 결과를 제공할 수 있습니다.
지도 기계 학습과 비교하여 비지도 기계 학습은 레이블이 없는 입력에서만 작동합니다. 이는 사람의 도움 없이 알려지지 않은 패턴과 상관 관계를 발견할 수 있는 데이터 탐색을 위한 강력한 도구를 제공합니다. 레이블이 지정되지 않은 데이터를 작업하는 기능은 시간과 비용을 절약하고 비지도 기계 학습을 통해 입력이 생성되는 즉시 데이터를 작업할 수 있습니다.
비지도 기계 학습이 지도 기계 학습보다 더 복잡하다는 단점이 있습니다. 비용이 더 많이 들고, 더 높은 수준의 전문 지식이 필요하며, 더 많은 데이터가 필요한 경우가 많습니다. 출력은 감독된 ML보다 신뢰성이 떨어지는 경향이 있으며 궁극적으로 최적의 결과를 얻으려면 사람의 감독이 필요합니다.
비지도 기계 학습 기술의 세 가지 중요한 형태는 클러스터링, 이상 탐지 및 데이터 차원 축소입니다.
이름에서 알 수 있듯이 클러스터링에는 데이터 세트를 분석하여 데이터 간의 공유 특성을 식별하고 유사한 인스턴스를 그룹화하는 작업이 포함됩니다. 클러스터링은 감독되지 않는 ML 기술이므로 사람이 아닌 알고리즘이 순위 기준을 결정합니다. 따라서 클러스터링은 놀라운 발견으로 이어질 수 있으며 탁월한 데이터 탐색 도구입니다.
간단한 예를 들자면, 생산 부서에서 세 사람이 과일을 분류하라는 요청을 받았다고 상상해 보세요. 하나는 감귤류, 핵과, 열대 과일 등 과일 유형별로 정렬할 수 있고, 다른 하나는 모양별로 정렬할 수 있습니다. 각 방법은 서로 다른 특성을 강조합니다.
클러스터링은 여러 유형으로 나눌 수 있습니다. 가장 일반적인 것은 다음과 같습니다.
독점적 클러스터링: 데이터 인스턴스는 클러스터에 독점적으로 할당됩니다.
퍼지 또는 중첩 클러스터링(퍼지 클러스터링): 데이터 인스턴스를 여러 클러스터에 할당할 수 있습니다. 예를 들어, 오렌지는 감귤류이자 열대 과일입니다. 레이블이 지정되지 않은 데이터에서 작동하는 비지도 ML 알고리즘의 경우 데이터 블록이 그룹 A와 그룹 B에 올바르게 속할 확률을 할당할 수 있습니다.
계층적 클러스터링: 이 기술에는 클러스터 집합이 아닌 클러스터된 데이터의 계층적 구조를 구축하는 작업이 포함됩니다. 오렌지는 감귤류이지만 더 큰 구형 과일 그룹에도 포함되며 모든 과일 그룹에 더 흡수될 수 있습니다.
가장 인기 있는 클러스터링 알고리즘 세트를 살펴보겠습니다.
K-평균 알고리즘은 데이터를 K개 클러스터로 분류하며, 여기서 K 값은 사용자 설정에 의해 미리 결정됩니다. 프로세스 시작 시 알고리즘은 K개 데이터 포인트를 K개 클러스터의 중심으로 무작위로 할당합니다. 다음으로 각 데이터 포인트와 클러스터 중심 사이의 평균을 계산합니다. 이로 인해 데이터가 클러스터로 다시 이동됩니다. 이 시점에서 알고리즘은 중심을 다시 계산하고 평균 계산을 반복합니다. 일정한 솔루션에 도달할 때까지 중심을 계산하고 클러스터를 재정렬하는 프로세스를 반복합니다(그림 1 참조).
그림 1: K-평균 알고리즘은 먼저 K개의 데이터 포인트를 무작위로 중심으로 선택한 다음 나머지 인스턴스를 클러스터에 무작위로 할당하여 데이터 세트를 K개의 클러스터로 나눕니다.
K-평균 알고리즘은 간단하고 효율적입니다. 패턴 인식 및 데이터 마이닝에 매우 유용합니다. 단점은 설정을 최적화하려면 데이터 세트에 대한 고급 지식이 필요하다는 것입니다. 또한 이상치에 의해 불균형적으로 영향을 받습니다.
K-median 알고리즘은 K-means와 가까운 친척입니다. 각 데이터 포인트의 평균을 계산하는 대신 중앙값을 계산한다는 점을 제외하면 본질적으로 동일한 프로세스를 사용합니다. 따라서 알고리즘은 이상값에 덜 민감합니다.
다음은 클러스터 분석의 몇 가지 일반적인 사용 사례입니다.
이상 감지는 결함 감지부터 상태 모니터링, 사이버 보안에 이르기까지 다양한 사용 사례에 중요합니다. 이는 비지도 머신러닝의 핵심 작업입니다. 비지도 기계 학습에 사용되는 몇 가지 변칙 탐지 알고리즘이 있습니다. 가장 인기 있는 두 가지 알고리즘을 살펴보겠습니다.
변칙 탐지에 대한 표준 접근 방식은 일련의 정상 탐지를 설정하는 것입니다. 그런 다음 각 데이터 조각을 분석하여 정상 값에서 벗어나는 정도와 그 정도를 확인합니다. ML에 사용되는 것과 같은 대규모 데이터 세트로 작업할 때 이는 매우 시간이 많이 걸리는 프로세스입니다. 격리 포리스트 알고리즘은 반대 접근 방식을 취합니다. 이는 이상치를 데이터 세트의 다른 인스턴스와 공통적이지도 않고 크게 다르지도 않은 것으로 정의합니다. 따라서 다른 인스턴스의 나머지 데이터 세트와 더 쉽게 격리됩니다.
격리 포리스트 알고리즘은 메모리 요구 사항이 가장 적으며 필요한 시간은 데이터 세트의 크기와 선형적으로 관련됩니다. 관련 없는 속성이 포함된 경우에도 고차원 데이터를 처리할 수 있습니다.
중심으로부터의 거리로만 이상값을 식별하는 데 따른 어려움 중 하나는 소규모 클러스터에서 짧은 거리에 있는 데이터 포인트는 이상값일 가능성이 있지만 데이터 포인트는 이상값일 가능성이 높다는 것입니다. 큰 클러스터에서 짧은 거리에 있는 포인트는 이상값일 가능성이 높습니다. 멀리 떨어져 있는 것처럼 보이는 포인트는 그렇지 않을 수도 있습니다. LOF 알고리즘은 이러한 구별을 위해 설계되었습니다.
LOF는 이상치를 로컬 밀도 편차가 주변 데이터 포인트보다 훨씬 큰 데이터 포인트로 정의합니다(그림 2 참조). K-means와 마찬가지로 사전에 일부 사용자 설정이 필요하지만 매우 효과적일 수 있습니다. 또한 준지도 알고리즘으로 사용하고 일반 데이터에 대해서만 학습하는 경우 신규성 감지에도 적용할 수 있습니다.
그림 2: LOF(로컬 이상값 요인)는 각 데이터 포인트의 로컬 밀도 편차를 사용하여 이상 점수를 계산하고 정상 데이터 포인트를 이상값과 구별합니다.
다음은 이상 탐지에 대한 몇 가지 사용 사례입니다.
머신 러닝은 대량의 데이터, 종종 매우 큰 양의 데이터를 기반으로 합니다. 10개에서 수십 개의 특성으로 데이터 세트를 필터링하는 것도 한 가지입니다. 수천 개의 기능(그리고 확실히 존재하는)이 포함된 데이터 세트는 압도적일 수 있습니다. 따라서 ML의 첫 번째 단계는 데이터를 가장 의미 있는 기능으로 줄이기 위한 차원 축소일 수 있습니다.
차원 축소, 패턴 인식, 데이터 탐색에 사용되는 일반적인 알고리즘은 PCA(주성분 분석)입니다. 이 알고리즘에 대한 자세한 논의는 이 기사의 범위를 벗어납니다. 이는 틀림없이 상호 직교하는 데이터 하위 집합을 식별하는 데 도움이 될 수 있습니다. 즉, 주요 분석에 영향을 주지 않고 데이터 집합에서 제거할 수 있습니다. PCA에는 몇 가지 흥미로운 사용 사례가 있습니다.
비지도 기계 학습은 지도 기계 학습보다 낫지도 나쁘지도 않습니다. 올바른 프로젝트의 경우 매우 효과적일 수 있습니다. 즉, 가장 좋은 경험 법칙은 단순함을 유지하는 것이므로 비지도 머신러닝은 일반적으로 지도 머신러닝으로 해결할 수 없는 문제에만 사용됩니다.
어떤 기계 학습 접근 방식이 프로젝트에 가장 적합한지 결정하려면 다음 질문에 대해 생각해 보세요.
마지막으로 성공을 보장하는 데 도움이 되는 몇 가지 팁은 다음과 같습니다.
산업 환경에서 수집된 데이터는 귀중한 리소스가 될 수 있지만 적절하게 활용되는 경우에만 가능합니다. 비지도 기계 학습은 데이터 세트를 분석하여 실행 가능한 통찰력을 추출하는 강력한 도구가 될 수 있습니다. 이 기술을 채택하는 것은 어려울 수 있지만 어려운 세상에서 상당한 경쟁 우위를 제공할 수 있습니다.
위 내용은 비지도 머신러닝이 산업 자동화에 어떤 이점을 줄 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!