新闻公告

首页 > 新闻公告 > 伟德国际1946源自英国 > 正文

伟德国际BETVLCTOR陈渤教授团队成果被CVPR 2023录用

时间：2023/03/30 15:37:52 作者：点击数：

（通讯员：曾泽群）近日，计算机视觉与模式识别大会(The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023，简称CVPR 2023，https://cvpr2023.thecvf.com/)公布了其论文录用的结果。作为国际公认的计算机视觉和机器学习领域顶级会议，CVPR大会每年都会吸引来自学术界和工业界的广泛关注，其收录的论文也代表了领域当今最前沿的研究成果，本届CVPR共收到9155篇有效投稿，录用2360篇，录用率为25.78%。本次，伟德国际BETVLCTOR陈渤教授团队的博士生曾泽群和副教授张昊合作完成的工作《ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing》被录用。

该项工作成果结合团队以往在概率模型建模上的相关经验知识，提出了一种基于吉布斯采样的非自回归零样本图像字幕生成方法。吉布斯采样是一种蒙特卡洛概率近似方法，可以通过已知条件概率分布获得未知联合概率分布的估计。提出的模型将基于图像内容的文本生成任务建模为迭代形式的基于上下文的完型填空任务，将句子中每个位置的单词视为随机变量，通过对句子中每个位置上的单词基于上下文进行条件采样更新，在多次迭代后整个句子最终收敛于各位置单词联合分布。此方案相较于传统自回归条件文本生成方案，生成结果具有更强的多样性和随机性。此外，借助先进的大规模预训练模型中包含的先验知识以及额外的知识库，本文该成果可以实现无需训练样本和训练过程，即在零样本的条件下，灵活应用于下游条件文本生成任务。本模型的整体框架如下图所示。