行人|计算机视觉常用技术分的全面介绍

上一篇文章 , 我们介绍了计算机视觉的发展历史 , 这里我们来介绍计算机视觉的常用技术分类 。 特征提取是很多CV技术的前置操作 , 比如判断两幅头像是否是同一个人 , 计算机根据图像的某些局部特征 , 如边缘和线条的特征 。

行人|计算机视觉常用技术分的全面介绍
文章图片

1.图像特征种类
图像的颜色特征、纹理特征、形状特征、空间关系特征(应用于机器人的姿态识别问题 , 确定一个三维物体的方位等)、局部特征
2.图像特征描述
图像特征描述的一个核心就是鲁棒性(robust , 这个词大家肯定听过吧 , 出场率极高)和可区分性 , 而这两点常常是矛盾的 。
鲁棒性是指一个特征应该适用于不同的图像变换情况 , 这就要求这个特征比较“粗糙” , 例如一个茶杯从上方看和从侧面看都应该是同一个茶杯 。 可区分性是指 , 能够区分一些比较相似的局部特征 , 显然其鲁棒性往往比较低 。
图像分类
常用的算法 , 卷积神经网络CNN , 是一种前馈神经网络 , 它的人工神经元可以响应一部分覆盖范围内的周围单元 , 对于大型图像处理有出色表现 。 CNN的基本结构包括两层 , 其一为特征提取层 , 每个神经元的输入与前一层的局部接受域相连 , 并提取该局部的特征 。 一旦该局部特征被提取后 , 它与其它特征间的位置关系也随之确定下来;其二是特征映射层 , 网络的每个计算层由多个特征映射组成 , 每个特征映射是一个平面 , 平面上所有神经元的权值相等 。
场景分类:基于对象(根据场景中出现的对象区分 , 例如出现床可能是卧室)、基于区域、基于上下文、基于Gist特征
基于对象
基于视觉的场景分类方法大部分都是以对象为单位的 , 也就是说 , 通过识别一些有代表性的对象来确定自然界的位置 。 带有被子的床 , 在自然界的位置可能是卧室
基于区域
首先通过目标候选候选区域选择算法 , 生成一系列候选目标区域 , 然后通过深度神经网络提取候选目标区域特征 , 并用这些特征进行分类 。 比如枫树长在山上 , 这片山是属于中国北京的 , 还是美国西雅图的 , 还是亚马逊的 , 对于山上的土质特征进行识别
基于上下文
这类方法不同于前面两种算法 , 而将场景图像看作全局对象而非图像中的某一对象或细节 ,
这样可以降低局部噪声对场景分类的影响 。 比如小男孩脖子上的银色项圈 , 不仅仅是他的装饰品 , 还是他父亲留给他的唯一纪念品
基于GIST
还在研究中 , 理解不动(谁知道可以留言告诉我 , ┭┮﹏┭┮)
图像检测
图像检测是通过获取和分析图像特征 , 从图像中定位出预设的目标 , 并准确判断目标物体的类别 , 最后给出目标的边界 , 边界一般是矩形 , 不过也有圆形的情况 。
物件检测
物件检测分为静态物体检测和动态物体检测 , 并且其一般和物体分类算法结合 , 多应用于安防领域(行人检测、智能视频分析、行人跟踪)、交通领域(交通场景的物体识别、车辆计数、逆行检测、车牌检测和识别)、互联网领域(图像检测、相册自动归类)
行人检测
行人检测 , 顾名思义就是将图片中的行人检测出来 , 并输出目标边界 , 并且检测的常常是多个行人目标 。 将一个视频流中的行人的轨迹关联起来 , 就是行人跟踪 , 多个目标即多人跟踪 。 另外一个应用称为行人检索 , 或行人再识别 , 即给定一个待检索行人 , 从图集或视频中找到
人脸检测
人脸检测是人脸识别中的一个关键环节 , 人脸检测指对于一副给定的图像 , 采用一定的策略对其分析搜索确定其中是否含有人脸 , 若有人脸则返回人脸边界 , 以及大小、姿态等信息 。
人脸检测是图像检测中的一种 , 方法基本类似 , 主要分为六个步骤:预处理、窗口滑动、特征提取、特征选择、特征分类和后处理
图像分割
图像分割指把图像分成若干个特定的、居右独特性质的的区域并提出感兴趣目标的技术 。 现有的图像分割技术主要分为以下几类:基于阈值、基于区域、基于边缘和基于特定理论的分割方法 。 图像分割是将数字图像划分为几个互不相交的区域 , 也是一种标注的过程 , 即把属于同一区域的像素给与相同的标签 。
图像分割技术下有三个比较常见的分支——视觉显著性检测、物体分割、语义分割
视觉显著性检测
视觉显著性检测指通过算法模拟人的视觉特点 , 提取图像中可能是人类感兴趣的区域 , 及显著区域 。
这里涉及到另一个概念 , 视觉注意机制(Visual Attention Mechanism) , 即面对一个场景时 , 人类自动对感兴趣区域进行处理而自动忽略不显著的区域 。
比如:一个房间里穿着吊带的美女在喝哈尔滨啤酒 , 注意点分别会在:美女的脸 , 胸部 , 酒瓶 , 酒瓶标签等
人的视觉注意有两种策略机制:
自下而上、基于数据驱动的注意机制:收感知数据驱动 , 将人的视觉重点引导至场景中的显著区域 , 这些区域通常与周围有较强的对比度或与周围有明显的区别 , 包括颜色、形状、亮度等特征 。 比如一副黑色图片中的一个白点 , 视觉自然而然的会被引导至白点 。
自上而下、基于任务驱动的、基于目标的注意机制:有根据先验知识、预期和当前的目标来计算图像的显著性区域 。 在视频中找到人 , 就是一个任务驱动的行为 。
物体分割
物体分割一般是用于把单张图片中的一个或多个物体分割出来 , 物体分割常常和物体识别共同使用 。 相比于物体检测只能返回一个矩形边界 , 物体分割算法可以精确的描绘出所有物体的轮廓 , 从像素成眠上把各个物体分割出来 。
比如:3个人骑在大象身上 , 2个男的 , 1个女的 , 那么图像分割中动物是一组 , 人是一组 , 人中 , 男的是一组 , 女的是一组;
语音分割
图像语义分割 , 也成为语义标注 , 简单而言就是给定一张图片 , 对图片上的每一个像素点分类 , 不区分物体 , 尽关心像素 。
比如:猫咪在蓝色天下的青青草原玩耍 , 天空是一块区域 , 草地是一块区域 , 猫咪是一块区域 。
图像描述
图像描述也称为Dense Captioning , 其目标是在给定一张图像的情况下 , 得到图像中各个部分的自然语言描述 。 图像描述问题融合了计算机视觉和自然语言处理两大方向 , 是AI解决多模式跨领域问题的典型技术 。 与英文相比 , 中文的描述常常在句法词法的组合上更加灵活 , 算法的挑战也更大 。
图像标注
图像标注是从根据一幅图自动生成一段描述性的文字 , 小时候的“看图说话” 。 图像描述需要把图像中各个物体均生成描述 , 而图像标注只对图片整体进行描述 。
图像标注技术一般分为典型的图像标注和基于注意力的图像标注 。

行人|计算机视觉常用技术分的全面介绍
文章图片

比如:一只黄色的土狗钻在桌子底下撅着屁股找吃的 , 有画面没了没?
【行人|计算机视觉常用技术分的全面介绍】本文来源于:http://www.0755vc.com

    推荐阅读