컴퓨터 비전 이미지 분류-일체 포함-php.cn

집

기술 주변기기

일체 포함

컴퓨터 비전 이미지 분류

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 07, 2023 pm 10:01 PM

컴퓨터그림비전

이 기사는 Beishang 작가가 WeChat 공개 계정 "AI Origin"에서 재인쇄한 것입니다. 이 기사를 재인쇄하려면 AI Yuanqi 공개 계정에 문의하세요.

숫자를 말할 수 있나요?

AI라고 하면 누구나 생각하는 것은 '유랑지구 2'의 MOSS와 같은 지능형 하드웨어 생물일 것입니다. 인터넷만 제공된다면 그것은 어벤져스 2와 같을 것입니다. 울트론처럼 그는 인터넷을 이용해 곳곳에 자신을 전파하며, 항상 인류를 말살하고 '세계 평화'를 이루려는 계획을 생각한다.

컴퓨터 비전 이미지 분류

현실적으로 이 단계의 AI는 영화나 TV 작품에서 모두가 느끼고 경험하는 것과는 아직 거리가 멀습니다. 오늘은 사진 디지털 인식을 예로 들어 AI가 어떤 형태에 기반을 두고 있는지 살펴보겠습니다. 실제로 존재합니다. 기사는 단계별로 이해하는 데 도움이 되는 몇 가지 주요 질문으로 색인이 생성됩니다. 따라오세요~

숫자가 있는 사진입니다. (흐리지만) 숫자 '3'이 있는 사진입니다.

컴퓨터 비전 이미지 분류

첫 번째 질문: 실제 지능 - 이것이 숫자 "3"임을 분명히 알 수 있는 이유는 무엇입니까? 이것은 무엇을 의미 하는가?

이 사진을 보면 눈은 광학 신호를 망막의 빛 반사를 통해 뇌가 인식할 수 있는 생물학적 신호로 변환하고 이 부분의 정보를 일시적으로 저장합니다(실제로는 이해를 돕기 위한 것일 뿐이죠?). 당신의 망막에. 두뇌가 신호를 받은 후, 당신의 영리한 작은 두뇌는 이것이 숫자 "3"이라는 것을 재빨리 인식합니다. 이때 당신은 그림을 완전히 이해했으며 그것은 "3"입니다. 물론, 이 모든 것의 기초는 어린 시절부터 이 모양의 숫자가 5, 6 및 기타 숫자가 아닌 숫자 3과 "동등"하다고 배웠다는 것입니다.

컴퓨터 비전 이미지 분류

두 번째 질문: 눈, 망막 - 컴퓨터는 물리적 세계를 인식하기 위해 어떤 형태의 입력을 사용합니까?

컴퓨터와 AI는 어떤 관계인가요? 우리 자신이 지능과 생명을 갖고 있는 것처럼 AI는 컴퓨터의 컴퓨팅 파워와 아키텍처가 필요한 일종의 유사 지능 능력이라고 간단히 이해할 수 있지만 사실 우리는 본질적으로 탄소 기반 유기체입니다. 우리 모두 알고 있듯이, 컴퓨터 세계는 이진 세계입니다. 간단히 말해서, 이진은 0이거나 1입니다. 0이나 1인 이진수에만 의존하여 그렇게 많은 기능을 수행할 수 있습니까? 당신은 그렇게 강력한 컴퓨팅 능력을 가지고 있습니까? 하지만 걱정하지 마십시오. 여기서 명확히 해야 할 개념이 있습니다. 즉, 이진수는 모든 진수의 숫자를 나타낼 수 있습니다(먼저 그것이 옳다고 생각할 수 있으며, 구체적으로 필요한 경우 나중에 이에 대해 이야기하겠습니다). 예를 들어 우리가 흔히 사용하는 십진법의 숫자 13을 이진법으로 하면 다음은 1101이다. 주의 깊게 공부하고 싶은 친구들은 아래 그림의 설명을 보면 된다.

컴퓨터 비전 이미지 분류

따라서 우리는 숫자의 경우 컴퓨터가 이진수를 통해 이를 "이해"할 수 있다는 것을 명확하게 이해할 수 있습니다. 그림을 일련의 숫자로 변환할 수 있다면 컴퓨터는 0과 1만 아는 바보에서 그림에서 정보를 입력할 수 있는 바보로 바뀔 수 있을까(이해가 안 되면 옆으로 치워두세요. 아이는 자라서 먼저 먹는 법을 배워야 합니다.) 아래 그림과 같이 그림의 각 작은 영역을 픽셀로 간주할 수 있으며, 하나의 픽셀은 우리 모두 알고 있듯이 빨간색, 녹색, 파란색(파란색)을 거쳐 통과할 수 있습니다. 왼쪽에서 오른쪽으로, 위에서 아래로 숫자 목록을 구성한 다음 이 내용을 컴퓨터로 보낼 수 있습니다.

컴퓨터 비전 이미지 분류

이 시점에서 컴퓨터가 이해하든 못하든 그림을 컴퓨터가 받아들일 수 있는 신호로 변환했습니다. 그렇다면 컴퓨터 두뇌는 그림 속 숫자가 "3"임을 어떻게 인식할까요?

세 번째 질문: 소위 AI - 컴퓨터는 이 그림의 숫자가 "3"이라고 어떻게 판단해야 합니까?

컴퓨터에 이렇게 두 장의 사진을 주면 왼쪽 그림이 숫자 "3"이라는 것을 알 수 있습니다. 너무 순진하다고 생각할 수도 있지만, 3살짜리 아이도 이 사실을 알고 있습니다. 그런데 오른쪽 사진에 푸른발얼가니 등 희귀 새 사진 10,000장이 나와 있고, 컴퓨터가 다양한 희귀 생물을 99%의 정확도로 정확하게 식별하는 데 몇 초 밖에 걸리지 않는다면, 그렇지 않습니까? 약간 AI같지?

컴퓨터 비전 이미지 분류

전통적인 인식 방법 - 구체적으로 이미지를 디지털 매트릭스로 변환할 수 있었습니다. 전통적인 이미지 인식 방법은 일부 엄격한 규칙을 특징으로 사용하는 등 이미지의 특징을 추출합니다. 숫자 "3"은 우리 뇌에서 이 모양을 볼 때 무의식적으로 "3"이라고 반응하지만, 컴퓨터에게는 일련의 숫자로 보입니다. 따라서 초기에 유사한 이미지 분류 작업을 수행할 때 엔지니어들은 숫자 "3"에 매핑된 디지털 시퀀스를 처리해야 했는데 이는 정말 골치 아픈 일이었습니다. 따라서 특징을 만드는 방법은 전통적인 이미지 인식 및 분류에서 중요하지만 매우 번거로운 프로세스입니다.

기존 인식 방식의 장점은 인식 결과가 잘못된 경우 특징을 표시하여 오류의 원인을 대략적으로 파악할 수 있다는 점입니다. 단점은 특징 추출이 번거롭다는 것입니다. 기능 엔지니어링을 약화시키고(기능 엔지니어링은 많은 후속 작업에서도 매우 중요하지만) 엔드투엔드 솔루션을 제공할 수 있는 방법이 있습니까? 소위 엔드투엔드(end-to-end)란 디지털 사진과 그 분류 결과만 제공하고 컴퓨터가 스스로 인식 솔루션을 학습하도록 하면 된다는 의미입니다(인간의 학습 아이디어와 약간 비슷합니까). 시대의 변화와 컴퓨터 컴퓨팅 능력의 획기적인 발전으로 인해 신경망을 기반으로 한 딥러닝 알고리즘이 점차 사용되기 시작했습니다.

컴퓨터 비전 이미지 분류

심층 신경망 인식 방법 - 이 단어는 매우 심오합니다. 컴퓨터를 배우지 않거나 알고리즘을 하지 않는 사람들은 직접적으로 겁을 먹을 수 있습니다. 심층 신경망이 무엇인지 한 문장으로 번역해 보겠습니다. : 입력 데이터와 지정된 레이블 간에는 일부 비선형 상관 관계가 있습니다. 신경망은 위에서 언급한 비선형 상관 관계를 대략적으로 맞추기 위해 여러 비선형 함수를 사용합니다. 아래 그림과 같이 가장 왼쪽 그림(문자 "A")이 간단한 심층 신경망이고 오른쪽은 그림을 숫자로 변환하여 "지능형" 연산을 수행하는 구조로, 이는 "뇌"로 이해될 수 있습니다. ".

컴퓨터 비전 이미지 분류

위 내용은 컴퓨터 비전 이미지 분류의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다