拍照就能识别万物,AI是怎样看“懂”图片的?
接待来到科普中国超越推出的寒假宏构栏目“给孩子的高新科技课”!
东谈主工智能看成现在最前沿的科技之一,正在以令东谈主咋舌的速率转换着咱们的生计。从智能语音助手到无东谈主驾驶汽车,从 AI 绘制到机器学习,它为咱们洞开了一个充满无尽可能的翌日。本栏目将以下里巴人的方法,用视频和翰墨给孩子论说东谈主工智能的旨趣、专揽偏激对社会的深切影响。
快跟咱们统统开启这场 AI 之旅吧!
以下为翰墨版块:
生计中,AI 图像识别无处不在。
看到不顽强的植物?拍张像片,分分钟就能找到谜底。自动驾驶汽车也好像长了眼睛雷同,能减轻驰松判断出,那儿是谈路,那儿是树木。东谈主脸识别技艺,也让咱们终显然刷脸支付。
而这一切,齐离不开一项技艺——卷积神经网罗。这项技艺,就像 AI 的眼睛。
想了解 AI 的眼睛是怎样职责的,咱们先要看一看动物的眼睛是怎样职责的。
从猫眼到 AI 眼:视觉神经元的启示
20 世纪 50 到 60 年代,大卫·休伯尔和托斯坦·威泽尔对猫的视觉进行了商榷,他们发现,在一幅画面插足猫的视线之后,猫大脑中认真视觉的神经元,被不同的东西激活了。
为了浅显认知,咱们看个例子。比如这么一幅画面,有的神经元对画面中物体的边际线条超越感酷爱,会庄重解决这些信息,有的神经元对大块的神采比较敏锐,更擅长解决这些信息。这些神经细胞统统职责,匡助生物识别多样复杂的图像。
埃德加·德加 《去外省的跑马场》(At the Races in the Countryside)1869
这项商榷,让大卫和托斯坦得到了 1981 年诺贝尔生理学或医学奖,也启发了东谈主工智能范围一个超越进犯的算法,卷积神经网罗。
在 1980 年代,日本科学家福岛邦彦议论了一个叫作念 Neocognitron 的模子,用来识别日文手写字符,Neocognitron 中有不同的“层”,用来索要对不同的信息,临了抽象这些信息对识别到的字符进行判断。
这启发了一位叫作念扬·乐昆的法国科学家,扬·乐昆议论出了最早的卷积神经网罗,况且基于卷积神经网罗,栽种了 LeNet 模子。这个模子在那时被许多银行用来识别手写字符。咱们通过一个精真金不怕火的例子,来望望卷积神经网罗是如何职责的。
卷积神经网罗:图像识别的幕后勇士
和神经网罗比较,卷积神经网罗在识别图片的时刻,多了两个流程:卷积和集聚。
卷积,这个流程,是由一个叫卷积核的东西完成的。
一张图片,在筹商机的眼里,其实是一个个像素点构成的矩阵,卷积核不是单独去谈判每一个像素点上的信息,而是同期对某个区域,比如 3×3,5×5 的像素点信息进行解决。这么不错抽象谈判相邻像素点的信息,更好地索要出更高等特征。
你不错设想一下,卷积核就像是一个不雅测员拿着有特定视线的千里镜去看一幅图片,把看到的信息解决记载下来。
而且咱们不错配置有不同侧重心的不雅测员,以索要图片中的不同维度信息。比如,有的不雅测员庄重索要神采信息,有的庄重索要物体边际轮廓信息,有的特意索要某个特定体式的信息。临了抽象这些信息,匡助神经网罗作念出更好的判断。
此外,卷积神经网罗还有一个进犯的要领——集聚(又称池化)。
图顷然时是一个超越大的矩阵,集聚大概把一块区域里的信息压缩成一个信息。假如,对一个 16×16 的矩阵,不错通过集聚的顺次,索要 2×2 格子里神采最深一格的信息,就能把它酿成这么的 8×8 的矩阵。若是再进行一次交流的集聚,就不错把 8×8 的矩阵,酿成 4×4 的矩阵。固然图像集聚后会有一些变化,然则如故保留了统统图像中的基本特征。
卷积和集聚,让卷积神经网罗大概超越好地对图片信息进行索要,关于图像的学习解决效果上有了超越大的晋升。
天然,卷积神经网罗也会使用跟神经网罗雷同的反向传播算法,不销亡据已知放置逆向治疗神经网罗中的参数,以作念出越来越准确的判断。
那么,AI如何转换一些行业的生态?接下来的几迫临,咱们将一同探究。
议论制作
本文为科普中国-创作培育规划作品
出品|中国科协科普部
监制|中国科学技艺出书社有限公司、北京中科银河文化传媒有限公司
作家丨北京云御纪文化传播有限公司
审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副素养
议论丨符想佳
责编丨符想佳
【开首:科普中国】