继50天内拿下4个世界纪录后,近日,大华股份再次刷新KITTI Sceneflow和KITTI Flow两项竞赛的全球最好成绩,采用基于实例分割、深度视差网络、刚体运动一致性约束的场景流估计算法,超越了其它一流AI公司和顶尖的学术研究机构,以及ICCV、ECCV、CVPR相关论文中的场景流研究成果,这标志着大华股份在场景流与光流两个算法领域均具有重要国际影响力。
大华股份取得KITTI Sceneflow排行榜第一名:
(网址: www.cvlibs.net/datasets/kitti/eval_scene_flow.php)
大华股份取得KITTI Flow排行榜第一:
(网址: www.cvlibs.net/datasets/kitti/eval_scene_flow.php?benchmark=flow)
对于KITTI:KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的计算机视觉算法评测数据集之一。数据集用于评测立体匹配(stereo)、光流(flow)、场景流(sceneflow)、视觉里程计(visual odometry)、物体检测(object detection)和跟踪(tracking)、道路分割(road)、语义分割(semantics)等计算机视觉技术的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多包含15辆车和30个行人,且存在不同程度的遮挡与截断。
场景流与光流:
场景流算法能够同时估计场景中物体的叁维位置与叁维运动矢量,是感知环境空间几何结构的核心算法,与感知语义信息的算法结合后,能够全面地理解环境。叁维场景流的估计结果能够进一步分解为立体匹配结果与光流匹配结果,可以认为,光流是场景流映射到二维图像坐标系的投影。
在本次比赛中,大华股份AI团队为提升场景流估计精度,增加了一系列算法模块。首先,基于Mask-RCNN网络进行实例分割,从场景中分割出行人、车辆、自行车等前景目标。接下来,基于GC-Net计算初始视差图,使用分段多权重loss函数、利用实例分割结果和多尺度特征图优化初始视差结果,得到更加精细的视差图,进而改善了初始的proposal NRT集合。最后,引入移动前景目标的刚体运动一致性约束,针对场景流不连续区域,采用多阈值融合的策略,优化场景流估计结果。
在评测中,采用场景流和光流算法的效果和计算结果如下所示:
输入图像
罢0时刻视差图
经光流反向映射后的罢1时刻视差图
罢0时刻到罢1时刻的光流图
在大华实际产物和未来产物中的应用
本次竞赛中使用的技术已在大华股份的双目摄像机、全景摄像机等产物上得到应用,提升多目摄像机的捕获目标深度数据、目标分离等算法性能。同时,该技术也成功应用于础搁融合应用,实现单个与多个摄像机图像的础搁语义融合,极大提升行业解决方案的用户体验。
双目摄像机立体匹配应用场景
以下为致密物体堆积下立体匹配的效果:
双目图像左图
视差图估计结果
础搁语义融合应用场景
以下为路面图像的础搁语义融合效果,可供增强的信息:目标类别、位置、运动矢量等
真实图像
础搁语义融合后的效果