在国家自然科学基金项目(项目编号:61371128,61532005)等资助下,北京大学彭宇新教授团队在视频搜索研究中取得新进展。该团队在2016年国际评测TRECVID(TREC Video Retrieval Evaluation)视频搜索比赛(Instance Search)的计算机自动搜索和交互式搜索2项评测中均获得第一名。共有来自包括日本国立情报研究所、荷兰阿姆斯特丹大学等在内30支队伍参赛。比赛结果见链接:http://www-nlpir.nist.gov/projects/tvpubs/tv16.slides/tv16.ins.slides.pdf。这是彭宇新教授团队自2009年连续多年参加TRECVID获得多次第一名后,再次获得的优异成绩。
TRECVID由美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)2001年发起,每年举行一次,是迄今为止影响力最大的全球视频内容分析比赛(http://trecvid.nist.gov)。Instance Search比赛内容是计算机如何在图像查询条件下,从人类语义的角度搜索语义相关的视频,涉及下一代多媒体搜索引擎和人工智能的关键技术。TRECVID 2016的Instance Search比赛数据集是BBC的464小时视频内容,有47万多个视频镜头。NIST定义了30个语义事件,每个语义事件同时包括人物和场景两个查询条件,要求在大规模数据下搜索出包含这些语义事件的视频,最终根据30个语义事件的总评测结果进行排名。
目前,图像、视频等多模态数据已经占到大数据的80%以上。近年来,彭宇新团队针对互联网多模态内容分析与识别难题,提出了基于注意力模型和增量深度学习的图像视频分类方法,解决了新增概念的训练加速和动态扩容难题;提出了级联分类器与极角拓扑约束相结合的判别方法,提高了视觉目标检测效果;提出了基于多模态融合与增量多索引磁盘哈希的语义协同方法,通过跨模态语义互补性实现多模态数据的综合利用。相关研究成果发表在IEEE Trans.等国际权威期刊和CVPR、ACM-MM等重要国际会议上,研制的互联网多模态内容分析与监管系统等在国家一些重要部门得到应用。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。