搜索

您的关键词

2020年8月23至28日,每两年举办一次的欧洲计算机视觉大会ECCV2020将在线上召开,本次会议共收到5025篇文章,共接受1361篇文章(27%)。该会议与国际计算机视觉大会(International Conference on Computer Vision,ICCV)和计算机视觉模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)并称为计算机视觉方向的三大顶级会议,代表着计算机视觉领域最前沿的进展,具有广泛的国际影响力。

近日,雷达信号处理国家级重点实验室陈渤教授指导的硕士一年级员工程子恒和博士生鲁瑞颖等的工作,《BIRNAT: Bidirectional Recurrent Neural Networks with Adversarial Training for Video Snapshot Compressive Imaging》被ECCV2020录用。受疫情影响,准备论文期间老师和员工居家隔离近两个月,克服了网络延迟、沟通不直接等种种困难最终完成了实验和论文。

本文提出了一种高效的双向递归神经网络用于视频快照压缩成像(Video Snapshot Compressive Imaging)的重构任务,在公开的主流仿真数据和实测数据上均取得了最先进的性能,且重构速度上比前一个最先进的算法DeSCI(发表于TPAMI2019)快30000多倍。

图1 左图:视频快照压缩成像系统原理图。利用动态掩膜将多帧动态场景调制并通过相机聚合为单帧测量。中图:本文提出模型BIRNAT的工作流程。给定测量和掩膜,先重构出测量的第一帧,再利用双向的递归神经网络依序重构剩余帧。右图:恢复的视频。

视频快照压缩技术是一种属于计算摄影学的新一代成像技术,在高速摄影和传输带宽受限的场景下具有巨大的应用潜力。该技术通过在成像过程中引入掩膜(mask),对多帧场景调制并聚合成单帧测量,以高于摄像机捕获速率的速度调制视频。这种技术走向实用的一个重要挑战是建立高质量快速的重构算法。基于迭代优化的方法难以在性能和效率上取得平衡,前述算法DeSCI重构一个分辨率为256*256的8帧视频要花费近2小时,过长的重构时间很难将这一算法应用于现实场景。近年来也有研究者应用深度学习技术到这一任务,尽管将测试时重构时间缩减至数秒,但重构视频的质量与最先进的算法还有较大差距。

本文针对视频快照压缩重构问题,首先为了更加充分的利用测量和用于调制的掩膜,提出能量归一化的预处理步骤。基于视频本质是一组图片序列的性质,本模型构建依次序的重构框架,具体而言,以归一化的测量和近似调制帧作为网络的输入,通过一个具有非局部注意力机制的卷积神经网络重构出第一帧,为建立帧与帧之间的时序关系,构建双向的递归神经网络按顺序和逆序依次重构出剩余所有帧。在训练阶段,除了使用衡量像素相似程度的均方误差函数作为损失函数,还引入对抗学习策略以提高重构性能。

图2 左图:仿真数据Aerial各种方法的重构结果

通过实验,本文所提出的方法在6个测试仿真数据的平均重构性能上取得了当前最好的结果,并且重构8帧256*256的视频仅用100多毫秒,远快于其他优化方法。对于来自两个真实快照压缩成像系统的测量,本模型也能重构出优于其他方法的清晰视频。该工作的提出,更新了视频快照压缩成像重构任务的最先进结果,并通过高效的前向网络即可快速地重构视频,有望推动快照压缩技术走向实用。

该工作代码及详细情况见陈渤教授团队GitHub主页:https://github.com/BoChenGroup/BIRNAT

上一篇:雷达信号处理国家级重点实验室卫生检查暨实验室卫生评比工作顺利完成

下一篇:雷达信号处理国家级重点实验室陈渤团队论文被机器学习顶会ICML2020录用