深度学习-计算机视觉(一)

转眼时间已经过了这么久了,是时候狠下心来再拼一次了,今天翻看我的rss的时候,发现了一门关于深度学习入门的公开课,是斯坦福大学计算机视觉实验室推出的课程,课程全称是CS231n: Convolutional Neural Networks for Visual Recognition

课程描述如下:

计算机视觉在社会中已经逐渐普及,并广泛运用于搜索检索、图像理解、手机应用、地图导航、医疗制药、无人机和无人驾驶汽车等领域。而这些应用的核心技术就是图像分类、图像定位和图像探测等视觉识别任务。近期神经网络(也就是“深度学习”)方法上的进展极大地提升了这些代表当前发展水平的视觉识别系统的性能。

本课程将深入讲解深度学习框架的细节问题,聚焦面向视觉识别任务(尤其是图像分类任务)的端到端学习模型。在10周的课程中,学生们将会学习如何实现、训练和调试他们自己的神经网络,并建立起对计算机视觉领域的前沿研究方向的细节理解。最终的作业将包括训练一个有几百万参数的卷积神经网络,并将其应用到最大的图像分类数据库(ImageNet)上。我们将会聚焦于教授如何确定图像识别问题,学习算法(比如反向传播算法),对网络的训练和精细调整(fine-tuning)中的工程实践技巧,指导学生动手完成课程作业和最终的课程项目。本课程的大部分背景知识和素材都来源于ImageNet Challenge竞赛。

视频地址在这里,有中文翻译,据说是深度学习里入门的好课程,好了,废话不多说,开始总结lecture1

计算机视觉简介

首先介绍了计算机视觉的历史渊源,了解计算机视觉与深度学习之间的关系。 计算机视觉是一门交叉学科 如上图所示,计算机视觉是一门交叉学科,包含了生物,心里,物理,工程,数学,计算机等领域,是machine learning的一门分支学科

计算机视觉的发展历程

在16世纪,人们开始通过模拟眼睛来感知周围环境 相机镜头 后来人们从猫的身上发现了大脑对图像的认知规律,只有当图片切换的一刻,装在猫脑袋上的点击才有了反应,最后提出了图像边缘的说法,也就是视觉处理的时候并不是针对整个图像一起处理,而是通过识别一些简单的线条进行处理 猫-视觉研究

接下来人们认识到了图像边缘(结构)的重要性,开始对物体进行提取,得到物体中蕴含的简单线条 Block World

这是人们在1970年总结的人类大脑视觉认知过程,而其中最主要的就是从2.5d建模的3d,在整个视觉认知的过程中,首先看到输入image时,人脑感知到其屏幕形状,也就是对物体形状的简单线条进行识别 ,接下来在2.5d阶段对前一阶段的结果进行拓展分层,然后在3d阶段对前面得到的信息进一步处理,进行3d建模 视觉认知过程

后来人们认识到所有物体都是由简单的线条或者形状组成的。 object由简单的线条组成

随着计算机性能的不断增强,人们开始对真实的照片进行处理,并识别图片中的“边缘” 真实图片的边缘识别 人类第一次真正意义上的人脸识别

接下来通过对简单的线条识别物体,这样的识别方法无论物体以何种角度都可以识别到 对线条识别

接下来人们开始使用机器学习中的特征建模和SVM支持向量机对图片进行识别处理 feature+SVM 通过对像素进行分类识别

随着计算机视觉领域不断扩大,很多研究者开始加入其中,为了统一衡量标准,有人提出使用PASCAL VOC的图像进行测试:

PASCAL VOC

PASCAL VOC

但是由于该网站在2012年的时候关闭,斯坦福计算机视觉实验室构建了ImageNet Image Net

而它的测试标准是: 测试标准

在人们组织之下,ImageNet已经慢慢的成为计算机视觉中的标准测试方法,这是历年该比赛中的错误率,可以看到在2012年错误率明显下降,最主要的原因是人们开始使用CNN对图像进行识别

错误率

错误率

本系列文章主要集中在图像分类领域

Ps: 在计算机可视化识别问题中,有很多细分领域,要明白他们之间的区别与联系,这些细分领域包括image classification(图像分类),object detection(物体检测/感知), image captioning(图像捕获)

一张图表明区别在哪

一张图表明区别在哪

从ImageNet的结果可以看出,CNN在计算机视觉领域的地位越来越重要了,2012年以前,常用的方法就是特征构建+SVM分类,而2012年之后,大家都在用CNN

年份与使用的技术

年份与使用的技术

但是有意思的是CNN并不是2012年发明并开始使用的,早在1998年就有人将其用在图像分类领域,可惜的是当时硬件条件不是很好,无法进行大规模的模拟实验

1998&2012

1998&2012

当然现在计算机视觉领域比较流行的挑战就是看图写文章

看图说话

看图说话

总结

这节课给我感觉就是讲述了计算机视觉的发展史以及计算机视觉技术的发展,其中给我印象最深的要数人类大脑对图像的认知过程以及视觉信息是如何加工这一块了,嗯,本文就学到这些。

热评文章