이 기사는 Beishang 작가가 WeChat 공개 계정 "AI Origin"에서 재인쇄한 것입니다. 이 기사를 재인쇄하려면 AI Yuanqi 공개 계정에 문의하세요.
숫자를 말할 수 있나요?
AI라고 하면 누구나 생각하는 것은 '유랑지구 2'의 MOSS와 같은 지능형 하드웨어 생물일 것입니다. 인터넷만 제공된다면 그것은 어벤져스 2와 같을 것입니다. 울트론처럼 그는 인터넷을 이용해 곳곳에 자신을 전파하며, 항상 인류를 말살하고 '세계 평화'를 이루려는 계획을 생각한다.
현실적으로 이 단계의 AI는 영화나 TV 작품에서 모두가 느끼고 경험하는 것과는 아직 거리가 멀습니다. 오늘은 사진 디지털 인식을 예로 들어 AI가 어떤 형태에 기반을 두고 있는지 살펴보겠습니다. 실제로 존재합니다. 기사는 단계별로 이해하는 데 도움이 되는 몇 가지 주요 질문으로 색인이 생성됩니다. 따라오세요~
숫자가 있는 사진입니다. (흐리지만) 숫자 '3'이 있는 사진입니다.
첫 번째 질문: 실제 지능 - 이것이 숫자 "3"임을 분명히 알 수 있는 이유는 무엇입니까? 이것은 무엇을 의미 하는가?
이 사진을 보면 눈은 광학 신호를 망막의 빛 반사를 통해 뇌가 인식할 수 있는 생물학적 신호로 변환하고 이 부분의 정보를 일시적으로 저장합니다(실제로는 이해를 돕기 위한 것일 뿐이죠?). 당신의 망막에. 두뇌가 신호를 받은 후, 당신의 영리한 작은 두뇌는 이것이 숫자 "3"이라는 것을 재빨리 인식합니다. 이때 당신은 그림을 완전히 이해했으며 그것은 "3"입니다. 물론, 이 모든 것의 기초는 어린 시절부터 이 모양의 숫자가 5, 6 및 기타 숫자가 아닌 숫자 3과 "동등"하다고 배웠다는 것입니다.
두 번째 질문: 눈, 망막 - 컴퓨터는 물리적 세계를 인식하기 위해 어떤 형태의 입력을 사용합니까?
컴퓨터와 AI는 어떤 관계인가요? 우리 자신이 지능과 생명을 갖고 있는 것처럼 AI는 컴퓨터의 컴퓨팅 파워와 아키텍처가 필요한 일종의 유사 지능 능력이라고 간단히 이해할 수 있지만 사실 우리는 본질적으로 탄소 기반 유기체입니다. 우리 모두 알고 있듯이, 컴퓨터 세계는 이진 세계입니다. 간단히 말해서, 이진은 0이거나 1입니다. 0이나 1인 이진수에만 의존하여 그렇게 많은 기능을 수행할 수 있습니까? 당신은 그렇게 강력한 컴퓨팅 능력을 가지고 있습니까? 하지만 걱정하지 마십시오. 여기서 명확히 해야 할 개념이 있습니다. 즉, 이진수는 모든 진수의 숫자를 나타낼 수 있습니다(먼저 그것이 옳다고 생각할 수 있으며, 구체적으로 필요한 경우 나중에 이에 대해 이야기하겠습니다). 예를 들어 우리가 흔히 사용하는 십진법의 숫자 13을 이진법으로 하면 다음은 1101이다. 주의 깊게 공부하고 싶은 친구들은 아래 그림의 설명을 보면 된다.
따라서 우리는 숫자의 경우 컴퓨터가 이진수를 통해 이를 "이해"할 수 있다는 것을 명확하게 이해할 수 있습니다. 그림을 일련의 숫자로 변환할 수 있다면 컴퓨터는 0과 1만 아는 바보에서 그림에서 정보를 입력할 수 있는 바보로 바뀔 수 있을까(이해가 안 되면 옆으로 치워두세요. 아이는 자라서 먼저 먹는 법을 배워야 합니다.) 아래 그림과 같이 그림의 각 작은 영역을 픽셀로 간주할 수 있으며, 하나의 픽셀은 우리 모두 알고 있듯이 빨간색, 녹색, 파란색(파란색)을 거쳐 통과할 수 있습니다. 왼쪽에서 오른쪽으로, 위에서 아래로 숫자 목록을 구성한 다음 이 내용을 컴퓨터로 보낼 수 있습니다.
이 시점에서 컴퓨터가 이해하든 못하든 그림을 컴퓨터가 받아들일 수 있는 신호로 변환했습니다. 그렇다면 컴퓨터 두뇌는 그림 속 숫자가 "3"임을 어떻게 인식할까요?
세 번째 질문: 소위 AI - 컴퓨터는 이 그림의 숫자가 "3"이라고 어떻게 판단해야 합니까?
컴퓨터에 이렇게 두 장의 사진을 주면 왼쪽 그림이 숫자 "3"이라는 것을 알 수 있습니다. 너무 순진하다고 생각할 수도 있지만, 3살짜리 아이도 이 사실을 알고 있습니다. 그런데 오른쪽 사진에 푸른발얼가니 등 희귀 새 사진 10,000장이 나와 있고, 컴퓨터가 다양한 희귀 생물을 99%의 정확도로 정확하게 식별하는 데 몇 초 밖에 걸리지 않는다면, 그렇지 않습니까? 약간 AI같지?
전통적인 인식 방법 - 구체적으로 이미지를 디지털 매트릭스로 변환할 수 있었습니다. 전통적인 이미지 인식 방법은 일부 엄격한 규칙을 특징으로 사용하는 등 이미지의 특징을 추출합니다. 숫자 "3"은 우리 뇌에서 이 모양을 볼 때 무의식적으로 "3"이라고 반응하지만, 컴퓨터에게는 일련의 숫자로 보입니다. 따라서 초기에 유사한 이미지 분류 작업을 수행할 때 엔지니어들은 숫자 "3"에 매핑된 디지털 시퀀스를 처리해야 했는데 이는 정말 골치 아픈 일이었습니다. 따라서 특징을 만드는 방법은 전통적인 이미지 인식 및 분류에서 중요하지만 매우 번거로운 프로세스입니다.
기존 인식 방식의 장점은 인식 결과가 잘못된 경우 특징을 표시하여 오류의 원인을 대략적으로 파악할 수 있다는 점입니다. 단점은 특징 추출이 번거롭다는 것입니다. 기능 엔지니어링을 약화시키고(기능 엔지니어링은 많은 후속 작업에서도 매우 중요하지만) 엔드투엔드 솔루션을 제공할 수 있는 방법이 있습니까? 소위 엔드투엔드(end-to-end)란 디지털 사진과 그 분류 결과만 제공하고 컴퓨터가 스스로 인식 솔루션을 학습하도록 하면 된다는 의미입니다(인간의 학습 아이디어와 약간 비슷합니까). 시대의 변화와 컴퓨터 컴퓨팅 능력의 획기적인 발전으로 인해 신경망을 기반으로 한 딥러닝 알고리즘이 점차 사용되기 시작했습니다.
심층 신경망 인식 방법 - 이 단어는 매우 심오합니다. 컴퓨터를 배우지 않거나 알고리즘을 하지 않는 사람들은 직접적으로 겁을 먹을 수 있습니다. 심층 신경망이 무엇인지 한 문장으로 번역해 보겠습니다. : 입력 데이터와 지정된 레이블 간에는 일부 비선형 상관 관계가 있습니다. 신경망은 위에서 언급한 비선형 상관 관계를 대략적으로 맞추기 위해 여러 비선형 함수를 사용합니다. 아래 그림과 같이 가장 왼쪽 그림(문자 "A")이 간단한 심층 신경망이고 오른쪽은 그림을 숫자로 변환하여 "지능형" 연산을 수행하는 구조로, 이는 "뇌"로 이해될 수 있습니다. ".
위 내용은 컴퓨터 비전 이미지 분류의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!