计算机视觉的三部曲

  • 日期:08-12
  • 点击:(1570)


  11:56:47人人都是产品经理

计算机视觉已应用于许多领域,如无人驾驶,人脸识别,文本识别,智能交通,VA/AR,图像搜索,医学图像分析等,这是最流行的人工智能(AI)。其中一个领域。什么是计算机视觉?什么是完整链接?有哪些技术要点?本文将与您讨论。

ComputerVision是使用机器模拟人类视觉获取和信息处理的能力。主要研究内容是通过处理图片或视频获取相应场景的三维信息,研究主要针对图像内容。

本文主要是指上堂科技CEO徐棠的分享,它将计算机视觉分为三个部分:成像,早期视觉和识别。本文还讨论了这三个部分。

首先,成像(图像)

成像是计算机“看”的能力,计算机视觉的输入,相当于人眼。有几个因素影响计算机成像(请参阅参考资料):光线,不完整的物体和模糊。

当然,计算机看到的东西不仅可以被人眼看到,甚至可能是人眼的延伸。

这个怎么样?后者会解密你。

1.1光

(1)光线不足

光线不足是常见问题之一,尤其是在夜间。

例如,人眼可以看到上面的左图,但是通过增强图像或处理其他算法,它可以变得像上面的图像,并且可以看到对象。这就是我们之前所说的,机器成像也可以是人眼的延伸。

(2)曝光过渡

曝光过渡也更有可能在夜间发生,为什么?例如,如果您拍摄的物体被前照灯或其他强光照亮,则很容易曝光。

也可以通过一些简单的算法恢复曝光以恢复图像。

1.2对象不完整

物体是不完整的,主要有两个原因:被拍摄物体的一部分被遮挡,并且只拍摄被拍摄物体的一部分。

当我们有这种场景时,我们需要对机器做什么?您可以尝试考虑两件事:

机器可以根据清晰捕获的部件的特征自动完成遮挡部分。机器可以在被阻挡部分上做出一些特殊标记。当它转移到下一层时,下一层知道这个地方是异常的,需要特别考虑。这将防止被阻止的部分向下一层提供错误的消息。

1.3模糊

模糊有几个原因:

运动模糊,低焦距分辨率,低图像质量,雾,烟等小物体

当模糊不清时,计算机能做什么?

例如,拍摄照片时,手会摇晃,然后拍摄如下左图所示。可以通过一些算法将其恢复到下图。

或者当烟雾非常严重时,拍摄的照片如左图所示。机器成像后,可以将其更改为右侧图像,如下图所示,图片恢复到没有烟雾的形式。

是否有必要将对象恢复到最真实的外观?不一定,我们也可以做一些更亲热的事情。更多的艺术处理。例如,将烟雾图片变成油画相当于戴着太阳镜或戴着3D眼睛观看电影。

因此,具体需要“看”是什么,也是根据我们的最终目标进行调整。

第二,EarlyVision(EarlyVision)

在徐立的定义中,早期视觉可以理解为视觉系统处理的中间结果,它相当于我们人类视觉感知系统的某一层。

就像我们的视觉感知系统一样,尽管在视觉上描述它的作用并不容易,但它确实有一些信息被处理并传递到大脑的系统。早期视觉也是如此,作为中转站。

早期视觉主要包括图像分割,边缘检测,运动和深度估计。

下面我们将向您介绍图像分割和边缘检测(运动和深度估计尚不清楚,有兴趣的学生可以自己研究)。

2.1图像分割

图像分割是指基于诸如灰度,颜色,纹理和形状的特征将图像划分为彼此不重叠的区域,并且使得这些特征在相同区域中表现出相似性,并且在不同区域中表现出清晰度。区别。

例如,在上面的图片中,根据颜色区分不同的模块。道路是道路,汽车是汽车,树是树。

经典的图像分割方法是:边缘法和阈值法,但深度学习也可以用来处理好的结果。

图像分割在图像处理中非常经典并且经常被使用。例如,如果要拆分图像并取出目标零件,可以删除背景并将其恢复。

还有表情符号的合成:

2.2边缘检测

边缘检测的目的是在图像中找到一组亮度急剧变化的像素,因此它通常是事物的轮廓。

如果将“图像分割”比作油画,那么“边缘检测”就是草图。

如果可以精确地测量和定位图像中的边缘,则意味着可以定位和测量实际物体,包括物体的面积,物体的直径,物体的形状等。测量。

以下四种情况通常在它们出现在图像中时形成边缘:

深度深度(物体位于不同的物体平面上);表面方向的不连续性(例如立方体的两个面);物体的不同材料(这将导致不同的光反射系数);场景中的不同照明(例如树的地面投射。

2.3摘要

早期视觉仍然存在很多问题,但它不能很精确,所以现在端到端的训练方法是一个很好的解决方案。例如,我们使用深度学习来进行图像分割。

三,认识和理解(认可)

识别和理解等同于人脑处理信息,并在处理后给出反馈结果。

例如,面部识别:

我们输入面部图片,机器与面部数据库中的面部进行比较,机器可以告诉您图片是谁。

就像我们的大脑一样,当我们看到一个人时,我们会回忆。你以前见过这个人,你看过这个人,他叫什么名字,等等。

从这个例子中,我们可以看到机器识别理解中的两个重要因素:

(1)数据库(人类记忆)

只有数据库中的数据就足够了,也就是说,你已经看到了足够多的人,当你向某人展示时,你知道这个人是谁。

(1)标签(特征点)

根据你所识别的这个人,他的肤色,发型,眼睛,鼻子,嘴巴等,也就是说,我们需要对数据进行足够的标记,当你确定时,你可以比较这些标签的特征。

徐力说:只要图片和标签定义明确,数据量足够大,数据完善,就有可能超越垂直领域现有人的识别精度。

总结:

事实上,我们现在缺少的不是数据。我希望数据非常简单。我有足够的相机,我有足够的数据,白天和黑夜。但这些数据意义不大,没有标签,或者场景不够丰富,所以我们缺乏高质量的数据,标签中的高质量表现足够丰富和完美。

本文主要是指徐立演讲的内容。如果您有兴趣,可以去看看。徐力老师讲的更多是哲学和情感。

附件参考文章:

从成像到早期视觉到识别理解《看AI产品经理如何介绍“计算机视觉”(基于实战经验和案例)》_Jasmine《从0开始搭建产品经理的AI知识框架:计算机视觉》_蓝风GO《边缘检测》_Ronny《闲聊图像分割这件事儿》_言有三《图像分割》_古路

本文最初由