神经网络、深度学习与神经生物学之间启发式的联系
19世纪末期20世纪初从事解剖学领域研究的科学家们提出的神经元理论奠定了现代神经系统研究的基础,而这也成为了40年之后其它领域的科学家们设计神经网络模型的灵感之源。从1940年至1980年这40年间,心理学家、数学家以及计算机科学家们基于此理论(与图模型理论深度结合)不断地改进模型,使人工神经网络算法逐渐从理论探讨迈向了工程实践。具体来说,神经元理论提出的神经元和突触概念被抽象化为顿础骋(或者鲍础骋)中的顶点与边,从而组成了一个完整的神经网络模型(例如多层感知机);理论提出的联结特异性原理(特定的神经元只能与另外一些特定神经元发生联系)进一步激发了诸如严格玻尔兹曼机的研究;而动态极化原理(在神经元内部信号仅向一个方向传递)则帮助人们设计出了经典的前馈神经网络结构。
而对灵长类动物初级视觉系统的研究,人们基于视网膜上的神经节细胞只能对视场中某一特定位置产生响应(感受野)这个事实,创造性地将卷积、池化等引入了神经网络的结构中,如此简洁精妙的设计构思有效限制了由于网络结构的复杂而引起的参数爆炸性增长;同时还提高了算法的计算效率。
其余的例子不胜枚举。神经元细胞彼此之间发生的抑制作用让神经网络(特别是深度学习)的设计者们创造出了各种技巧。视觉上的侧抑制效应则催生了局部响应归一化层的构造;而我们从搁别尝鲍、顿谤辞辫辞耻迟等设计上不难看出神经元细胞之间互补性控制的影子。
深度学习算法则是基于上述事实对人脑进一步的仿生方式。人类的大脑皮层由四个区域构成:额叶、顶叶、枕叶、颞叶。神经生物学研究表明,在枕叶中存在着两条信息处理通路:腹侧通路与背侧通路,其中腹侧通路从枕叶向下延伸至颞叶下部,加工对象或场景的视觉外观,如形状、颜色、亮度、质地和大小等。进一步的研究表明,腹侧通路中,不同区域内的神经元仅对特定的视觉基元(visual primitives)产生响应。例如,V1区域对简单的边缘与纹理产生响应;V2区域对上述边缘与纹理组合形成的简单形状产生响应;而V4区域则对上述形状组合而成的更高级特征产生响应。连同将原始光信号转换为生物电信号的人眼视网膜组织,腹侧通路的这些区域形成了一条自底向上的信息处理链。信息从原始的像素开始,逐级抽象,从简单到复杂,低级到高级,形成了人类的视觉认知。打个比方,卷积神经网络好比是大脑皮层的枕叶(负责处理视觉信息),而循环神经网络则是大脑皮层的颞叶(负责处理时域信息)。
安防监控产业与深度学习之间的联系
现在让我们将讨论的话题切换到安防领域上来。安防监控系统是应用光纤、同轴电缆或微波在其闭合的环路内传输视频信号,并从摄像到图像显示和记录构成独立完整的系统。它能实时、形象、真实地反映被监控对象,不但极大地延长了人眼的观察距离,而且扩大了人眼的机能,它可以在恶劣的环境下代替人工进行长时间监视,让人能够看到被监视现场实际发生的一切情况,并通过录像机记录下来。同时报警系统设备对非法入侵进行报警,产生的报警信号输入报警主机,报警主机触发监控系统录像并记录。从对安防监控的描述中我们可以知道,信号的来源主要为视频和图像,换而言之主要的信号源与“视觉”相关。用通俗的话来进行描述,安防监控系统就是通过器械(摄像头等)让人们“看”到外部世界并对“感兴趣”事件产生预警的系统。
传统的安防监控系统以“人防”为主,但人防的缺点显而易见:随着需要监控的视频通道数的增加,所需的人力也会相应增加,其直接影响就是远高于收益的人力成本与远低于回报的工作效率。正是由于这个原因,现在的安防监控系统都以“技防”为主,即用无间歇工作的智能算法来代替无法长时间保持高效的人力对视频画面进行监控。而让智能算法彻底代替人力的愿景,在深度学习出现以前,如同科幻小说一般,仅仅停留在人们的脑海中,犹如纸上谈兵,无法落地。虽然传统的智能算法能够在特定环境和特定时间下表现出良好的性能,但只要一项因子发生改变(画质、环境等),传统智能算法在应用上表现出的性能就会出现明显的下降。换句话说,传统的智能算法相比于人类的大脑,欠缺的是对于所学“知识”的迁移能力。欠缺这种能力的本质原因则需要读者对机器学习具备一定的了解:实际问题中数据的分布呈现出高度的复杂性,我们感兴趣的对象的特征往往位于嵌入在更高维度的空间中的低维流型上。流型的维度虽低,但其几何结构并不简单。更加严格地说,其超表面呈现高度的非线性性。传统的智能算法背后其实对应着传统的机器学习方法,而这些传统的机器学习方法大多被设计使用线性超曲面来近似表征数据的流型;另外一些方法则通过所谓的核技巧来进行线性到非线性的“魔法”。这些方法虽然具有很好的数学定义,有些甚至具备优雅的解析解,但“现实往往是残酷的”:数学是人们形式化用于描述自然界如何工作的途径 ,但对于人类大脑而言,目前的科技水平并没有解码其工作原理。因此,确定的、有逻辑因果联系的过程在目前看来并不适用于这个领域。
而深度学习则另辟蹊径,在神经网络设计之初人们就赋予了其仿生的属性。这门学科与其说是一门科学,还不如说是一门艺术。目前大部分行之有效的技巧或方法往往来自于研究人员 的直觉,而不是严谨的推导。对此详细的说明超出了本文的范畴,在这里省略。总而言之,深度学习中的一个重要分支——卷积神经网络及其相关技巧解决了(在若干特定任务上,已经接近甚至超越了人类视觉系统)计算机如何“看世界”的问题;而智能安防产业的首要数据来源便是图像和视频,因此这两者能够获得相当高的默契度。
虽然从引起工业界的关注至今仅过了4个年头,深度学习已然得到了安防产业的青睐。由于其对人类视觉系统的模仿,凡是人眼能够胜任的智能安防应用,都可以应用深度学习技术得以解决(不同程度上地)。往广的范畴上来说,智能应用无非是检测、跟踪、识别叁大主流方向;而如今无论是学术界还是工业界,这叁大视觉主流方向已经牢牢地被深度学习占领了。相比于传统的智能算法,融合了深度学习的智能算法所得到的性能往往是突破性的。毫不夸张地打个比方,就好像四缸涡轮增压发动机与普通柴油发动机的区别。围绕着这叁大主流应用方向,深度学习的触角触及了行业的方方面面:人脸检测、车辆检测、非机动车检测、人脸识别、车辆品牌识别、行人检索、车辆检测、人体属性、异常人脸检测、人群行为分析、各种感兴趣目标的跟踪……
让深度学习能够如此大行其道的关键要素是数据,这也是深度学习独创性的哲学——从数据中学习特征(数据的表征)——的立命之本。也就是说,大数据造就深度学习。而占大数据总量60%以上的为视频监控数据,同时每年仍旧以20%的速度递增。这样的速度与规模得益于监控视频的高清化——1080笔已经越来越普及,4碍甚至更高的分辨率逐渐在重要场所得到应用——以及人们对营造智能安全的社会居所的迫切需求。
更加让人们感到充满希望的是,深度学习算法不仅仅被动地接受数据;相应地,它在吸收原有数据的基础上,能够增量式地提升模型的性能,给予数据的选择过程一种反馈——形成一种数据选择机制,能够分辨哪种类型的数据有助于持续提升模型性能,哪种类型的数据则是毫无帮助的——从而最终形成一种良性循环体系。
未来的安防产业
历史已经昭示,科学技术的发展趋势呈现高度的指数性质,初始阶段为线性或者次线性,而加速阶段则是超线性。安防产业也不例外。
未来是不可预知的,因此对于未来安防产业的预测也是自由的。我认为未来的安防产业将呈现两极化的趋势:更加偏重于宏观的智慧城市大安防化与更加侧重于微观的民用服务微安防化。这两者的发展都离不开高度互联的物联网技术以及接近完美的人工智能技术。前者在很多安防类文献或书籍中都被频繁说明,在此由于篇幅所限不再赘述。由于所提甚少(即使被提起,也是在其它领域),我个人更加偏好于对后者的阐述。
安防始于对公共安全的防范与保护,其更加偏向于整体的概念,是以“集合”的安全来覆盖“个体”的安全;而随着人们生活质量的持续攀升,他们将不会仅满足于能够保护群体安全的方式,势必产生对自身特殊化安全的需求。根据联合国最新的人口数据预测,2011年以后的30年里,中国人口老龄化将呈现加速发展态势,60岁及以上人口占比将年均增长16.55%,2040年60岁及以上人口占比将达28%左右。在这30年里,中国开始全面步入老龄化社会。到2050年,60岁及以上老人占比将超过30%,社会进入深度老龄化阶段。这意味着“养老”将会成为那时社会的一个主要问题,而这个问题所带来的市场也是无比广阔的。能够解决这一矛盾的重要一环便是人工智能技术(目前来看,深度学习技术已经让人们看到了实现人工智能技术的可能性)。
未来的安防产业,静态摄像头将被动态的移动智慧安防服务型机器人所取代。这些机器人能够通过嵌入在其身体上的各类传感器搜集周遭环境中的信息,通过人工智能算法生成其对周围环境的时空模型,从而理解环境并与环境发生交互。以养老产业来说,机器人能够通过视觉传感器提供的深度信息和搁骋叠图像信息,结合声音传感器提供的语音信息理解被服务对象的表情、感受,从而推断出被服务对象的需求。无法自理又无人照料的老人将通过自然交谈控制机器人为他们拿取药品、生活必需品,为他们购物、烹饪、打扫、处理饮食起居。机器人个体之间也将进行自我驱动式的互联,通过这种方式“分享”各自的经验,通过学习不断改进操作上述各类事务的技巧。所有个体的数据同时也能被上传到数据中心,人们能够实时监测每个老人的健康状况,并据此做出及时正确的响应措施。
着名的未来学家雷?库兹韦尔曾经预测过2045年人类科技发展将到达奇点。如果是这样的话,安防产业势必将成为这一新宇宙的璀璨星云。