搜索
首页科技周边人工智能计算机视觉之图片分类

本文转载自微信公众号「 AI源起」,作者北上。转载本文请联系AI源起公众号。

你会分辨数字吗?

说起AI,大家心里想到的一定是如“流浪地球2”中的MOSS一样的带有智慧的硬件生物,仿佛无所不知、无所不能,只要给他Internet就会像复联2中的奥创一样,利用网络把自身传播的无处不在,总想着消灭人类达到“世界和平”的计划。

图片

然而实际来说,现阶段的AI离大家在影视作品中感受和体会到的,还有相当大的差距,今天就拿图片数字识别为例,一起探索下AI到底是以一种什么形式实际存在的。文章会以一些关键问题为索引,带你一步步理解。Follow me, let’s go ~

这是一张带有数字的图片,相信你一定是看到后立刻就能反应过来,这是一张带有数字“3”的图片(即便它比较模糊)。

图片

第一个问题:真正的智慧体——你为什么能清楚的知道这是数字“3”?这背后代表了什么?

当你看向这张图片,你的眼睛通过光反射在视网膜上将光学信号转换为大脑能识别的生物信号,并将这部分信息暂存(仅辅助理解,实际并不是?)在了你的视网膜上。大脑接受到信号后,通过你聪明的小脑袋迅速认识到这是一个数字“3”,此时你已经对这张图片完全理解了,它就是一张“3”。当然,这一切的基础上,是你从小被教育过,这种形状的数字「等价于」数字3,而不是5、6等其他数字。

图片

第二个问题:眼睛、视网膜——计算机对于实体世界的认知是通过什么形式输入的?

计算机和AI什么关系呢?我们可以简单理解为AI是需要计算机的算力和体系结构一种伪智慧能力,就好比我们自身带有智慧和生命,但是其实本质上就是碳基生物。众所周知,计算机世界里是二进制世界,何谓二进制,简单来说就是非0即1。我知道你此时肯定有疑惑,就靠非0即1的二进制,就能实现这么多功能,有这么强大的算力吗?但先别急,这里需要明确一个概念,就是二进制可以表示任何进制的数字(可以先认为是对的,具体为什么需要的话,咱们后续再聊),比如我们常用的十进制下数字13,在二进制下是 1101,想仔细学习的小伙伴可以看下面图片的解释。

图片

因此我们能明确出,对于一个数字,计算机都能够通过二进制来“理解”。如果图片能够转化成一串数字,计算机是不是就能从一个只知道0和1的呆瓜,变成可以将图片进行信息输入(理解不理解先搁一边,就像孩子长个总得先会吃饭)。如下图,图片每个小区域可以认为是一个像素,一个像素点就代表了一种颜色,那又要众所周知了,任何一种颜色都能通过红色(Red)、绿色(Green)、蓝色(Blue)的不同配比调制出来,那我们按照从左到右,从上到下的顺序,就能形成一个数字列表,那把这些内容送给计算机。

图片

到这一步,不管计算机理解与否,我们已经将图片转换为了计算机能够接受的信号,那计算机的大脑是怎么识别图片中的数字是“3”呢

第三个问题:所谓的AI——计算机应该如何判断这张图片中的数字是“3”

给计算机这样两张图片,它能告诉你左边这张图片是数字“3”,你认为他是具有人工智能吗?你可能觉得这也太naive了,这3岁小孩都知道。但是如果像右图是1万张蓝脚鲣鸟等稀奇鸟类的图片,计算机只用了几秒钟就能以99%的准确率一字不差的判断出来各种稀奇生物,那是不是就有点AI那味了?

图片

传统识别方法——具体来说,我们已经能够将图片转换为数字矩阵了,传统的图片识别方法会将对图片中的特征进行抽取,比如会利用一些硬规则当做特征。对于数字“3”,在我们人脑中一看到这个形状,就下意识反应出来这是“3”,但是对于计算机他是一串数字呀。所以早期在做类似图片分类任务的时候,工程师需要对数字“3”映射下的数字序列进行处理,这可真令人头大。所以如何做特征就是在传统图片识别分类中,一个至关重要,但是极其繁琐的过程。

传统识别方法优势在于,当识别结果出错时候,你可以通过显示特征大致判断错误原因,弊端在于特征工程繁琐。那有没有这样一种方法,可以弱化特征工程(虽然后面很多任务,特征工程也极其重要),给一种端到端的解决方案。所谓端到端,就是我只需要给一张数字图片,和它的分类结果,让计算机自己学习出识别的解决方案(是不是有点像人类的学习思路了)。这里经过时代变迁和计算机的算力大幅提升,基于神经网络的深度学习算法逐渐有了用武之地。

图片

深度神经网络识别方法——这几个字很深奥,不学计算机不搞算法的可能直接被唬住了,我用一句话翻译翻译什么叫深度神经网络(狗头.jpg):输入数据和指定标签之间存在某种非线性的关联,神经网络就是通过多个非线性函数去近似拟合上述的非线性关联。如下图,就是一个简单的深度神经网络,最左侧的图片(字母“A”),右侧呢就是将图片转换为数字后,进行“智能”运算的结构体,可以理解为“大脑”。

图片

以上是计算机视觉之图片分类的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器