云时代的图像视频新“气质”—新闻

作者：程唯珈来源：中国科学报发布时间：2019/6/24 9:21:04

选择字号：小中大

云时代的图像视频新“气质”

项目组成员在讨论利用海量图像的结构化理解 项目组供图

编者按

“电子信息”是近几年频频出现的一个词。得益于计算机技术、通信技术和高密度存储技术的迅速发展，电子信息技术和产品展现了广阔的市场前景。科学家充分利用云环境下海量图像视频的特征进行编码和处理，提供了缓解海量数据存储和传输压力并有效利用的新思路和新方法。具有独特性质的石墨烯，在电路、电子器件制造等领域发挥着重要作用，为我国电子信息技术开辟了新天地。

我们不难发现，在电子研究中，有相当大一部分与实际应用联系紧密，而应用技术的发展也离不开基础理论研究，两者相辅相成、互相作用。为此，中国科学家立足国家实际需求、瞄准领域研究前沿，进行探索性理论研究并发展应用技术，取得了长足进展和丰厚回报。

一直以来，国家自然科学基金重大项目面向国家经济建设、社会可持续发展和科技发展的重大需求，选择具有战略意义的关键科学问题，汇集创新力量，充分发挥导向和带动作用，积极推进各项理论研究投入应用。

本期自然科学基金版将总结国家自然科学基金重大项目取得的研究进展，展示其取得的成绩。

■本报见习记者程唯珈

随着社交媒体的迅速普及，Flickr、YouTube、Facebook、微信、优酷、抖音……这些服务已经成为大众日常生活的一部分。人们更习惯用图像和视频记录自己和周围的人与事。

当我们在不经意间把海量的图像和视频存储在虚拟但又实在的云端时，大多数人不会发觉，图像和视频其实悄然占据了云环境中数据量的绝大部分。

今天的互联网上，图像和视频已经成为存储和传输带宽的最大消耗者。

据统计，YouTube视频网站上每天需要存储的视频超过7万小时，Facebook社交网络上每天存储的图像就有2.5亿张。随着图像视频采集装置的普及,今天我们的手机视频、监控视频在急速增长，据预测到2020年全球的存储数据将超过40ZB（1ZB=1021字节），其中超过90%的数据是图像、视频数据。

面对这些数据洪流，即使是互联网看似海量的存储和高速的传输也显得难以为继。其实，这些图像和视频除了提供给人类观看之外，还能够为机器通过图像/视频观看并理解世界提供新的机遇。

来自云环境的图像视频挑战

数据，让一切有迹可循、有源可溯——眼见为实、一图胜千言、有图有真相……

随着以图像和视频为代表的媒体数据的不断增多，以及数据在网络上云存储以及云计算的普及和利用的多样化，人们已经进入了“云环境”下的媒体时代。图像视频数据相应地呈现出数量巨大、交换频繁、应用多样等特征。

随着各类多媒体在信息获取、传播和应用领域重要性的凸显，图像和视频数据在整个云环境面临众多挑战。如何高效存储和传输这些数据？怎么挖掘出有价值的内容？如何让机器从海量的数据中学习到满足多种应用的知识？人们期待着答复。

“假设存储的效率提升一倍，就意味着同样的存储容量能够将存储的监控数据保存周期加倍，或者每年节约一半的存储费用。对于传输而言，编码效率的提升或传输模式的改变同样可以带来巨大的变化，编码效率提升4倍，则意味着用传输高清视频的成本能够实现超高清的传输。对图像、视频内容的抽象和理解有望带来更为重要的影响。”中国科学院计算技术研究所研究员陈熙霖告诉《中国科学报》，与人类对世界的观察不同，以往几十年间人们一直期望赋予计算机对世界观察和理解的能力，但由于数据量不足，这一理想一直处在不断的尝试之中，而云环境下的海量图像和视频数据为实现这一梦想带来了新的可能。

因此，对非结构的图像与视频而言，如何实现高效的表达和结构化成为首当其冲的科学问题。

2013年，国家自然科学基金委员会（以下简称自然科学基金委）发布重大项目“云环境下的图像视频群体协同表达与处理”申请指南，陈熙霖带领的中科院计算所团队联合来自北京大学、中国科学技术大学、同济大学和北京工业大学的研究团队进行申请，并最终获批。

陈熙霖表示，面向互联网云环境的高效图像视频表达、编码和处理技术是一项巨大的挑战，其中有诸多科学问题待解。

“我们把不同来源但存在较强相关性的图像和视频数据称为群体图像或视频数据，它们之间除了传统的时间、空间相关之外，还在图像间或视频间蕴含着丰富的相关性和冗余信息，这为从表达、编码、传输到评价和利用它们提供了新的机遇和可能。”他说。

为了实现上述目标，项目从图像视频群体数据的结构化与紧致表达、群体化图像视频编码、视觉失真可容忍的传输理论方法、主观一致的图像质量评价方法和面向群体数据的云媒体标准和验证平台等方面开展研究攻关。

图像视频的结构化与冗余消除

图像视频群体数据的结构化与紧致表达目的是将非结构化的图像视频数据转化为机器能够理解的结构化数据，并且希望这种结构化能够形成和人类感知一致的表示。

这种一致表现在多个方面。以黄猫、白猫和老虎为例，从类别上说前两者属于同类，但是从颜色划分，黄猫和老虎在颜色分布上具有更好的相似性。为了表示这种多重相似性，需要在这些对象的表达中嵌入多重的特征描述。

研究人员介绍，以往的方法需要为每一个不同的表示维度提供相应的训练数据，当这些不同维度的性质相组合时，将会产生“组合爆炸”的问题。于是提供训练数据将成为一项几乎不可能完成的任务。为此，研究人员提出了一种有效利用不完整信息的学习方法，从而实现了对多种性质的嵌入表达，更加细致地刻画了对象特征，建立了类人的对视觉对象的层次化描述。

进一步，如何让计算机对可视对象具有语义上的理解，实现从可视空间到语义空间的联系也是赋予机器具有视觉智能的重要挑战。

“一个例子是我们知道传说中的麒麟是‘狮头、鹿角、牛尾、一角带肉’，当我们看到相应的画面，并具有对狮、鹿、牛等的基本认知时，便会推断出麒麟。类似地，项目组探索了让计算机具有触类旁通，连接已知与未知，通过局部推断全局认知的能力。”陈熙霖介绍，为此团队在文字和图像之间建立了一种类似语义到图像的“翻译系统”，实现对开放场景下的图像理解，并让机器在学习中自动归纳，形成类似语言的表示体系，从而赋予计算机类似儿童的看图理解能力。

为了在云端环境下存储海量的图像视频数据，需要建立数据的高效压缩手段。利用群体图像视频间存在的超越以往编码中所利用的时间、空间之外的群体数据间蕴含的语义冗余，实现了更加高效的编码，项目组通过层次结构化的表达，自动发现群体图像视频中的语义冗余，为新一代的群体数据编码提供消除冗余的新维度。

由北京工业大学教授尹宝才带领的团队针对群体化图像视频的编码开展了深入研究，发展了群体图像编码的技术和方法，实现了利用群体数据的自编码和基于群体数据的个体编码方法，开发并开源了结合深度学习的低复杂度高效群体编码系统。

图像视频体验新升级

传统上度量压缩图像质量的方法都采用客观指标，如信噪比等。对此陈熙霖解释，“信噪比和人类的感知未必一致，并不是说信噪比越高，人的视觉感受就会越好。”如何实现与人类主观感知一致的质量评价是一个重要的挑战。

针对这一科学难题，来自中国科学技术大学的研究团队在李厚强教授带领下，围绕图像视频质量评价、图像质量评价参考库建设等方面开展攻关，取得了重要的研究突破。研究团队巧妙地利用神经科学中的自由能原理，将其拓展应用于图像感知质量评价，不用比较压缩前后的图像即可实现“打分”，实现了模拟人类感知机理的图像质量评价。

同时该团队还提出了面向混合失真的码流级视频编码质量评价方法，该方法被ITU-T接受，成为标准的一部分，被应用到H.264视频编码的质量评价中。

这一主观质量评价方法可以同时支撑对编码和传输阶段的视觉失真度量。结合这一度量，项目组提出了失真可容忍的图像视频传输方法。

从数学家香农提出信息论开始，在传输上，人们一直考虑的都是在给定的信道上传输码率和失真间的平衡。随着移动传输环境的普及，在平衡上述因素的同时加入功率因素，这不仅关乎降低功耗、提升电池寿命，也能够更好地保护用户少受电磁辐射的影响。

同济大学教授吴俊团队围绕视觉失真可容忍的视频传输技术开展研究，提出了通过灵活的功率分配和对重点数据的保护实现更有效平衡的传输方法，通过利用群体数据的冗余，并将传输图像的基本部分和细节部分分别采用不同的方式传输，优化了信道失真的视觉容忍程度，通过包括信道实数编码、陪集编码等，显著提升了同样信道条件下的主观传输质量，并利用云环境下学习的细节特征改善了接受图像的细节感受。

实践是检验真理的唯一标准

一系列关键技术被攻克让项目运行顺利，但是否能够有效提升图像视频的数据运行还需“现场练兵”。“以互联网图像和监控视频为例，应用组建立了面向云媒体的编码服务验证平台，以此在实践中验证成果。”陈熙霖说。

由北京大学教授黄铁军领衔的云媒体标准和验证平台课题组开发的视觉特征压缩技术，一次查询只需上传4KB特征数据，可节省98％的流量。相关成果已被腾讯、百度等互联网公司采纳并投入实际运营，在腾讯微信智能开放平台中的大规模图像搜索识别云服务以及百度识图、手机百度等产品中得到应用，服务上亿用户。

此外，课题组还研制了监控视频采集存储设备与大数据处理平台。其中场景视频建模压缩技术能把监控视频的压缩效率提高到国际标准的3倍以上，在青岛、贵阳等地得到应用。在青岛，城区公共交通通行效率提高了约30％，交通违法查纠率提升了近40倍。

团队目前牵头制定的面向云环境的新一代AVS云媒体编码标准，实现编码效率的成倍提升，有望成为国家标准或IEEE标准。

陈熙霖认为，这些成果的取得离不开自然科学基金委的大力支持和项目组全体研究人员的辛勤工作。谈到过去5年的体会，“如何从当前和未来需求出发，提出具有重要意义的‘真’问题是科研工作的关键。”

回顾该重大项目执行5年期间，研究人员的这些成果在国际上产生了重要影响。据谷歌学术统计，项目完成的论文成果中，引用超过50次的论文有26篇，超过100次的论文有11篇，单篇最高引用350余次。得益于前期积累和研究的连续性，项目组获得了多项国家级和省部级科研奖励。

在这一重大项目支持下，这支脚踏实地的科研团队获得了快速的成长，过去5年，项目组中多位成员获得了自然科学基金委国家杰出青年科学基金和优秀青年科学基金项目等资助，如今他们正迈向新的探索之旅。

陈熙霖表示，对人类而言，70%以上的信息都来源于视觉，智能视觉系统同样如此。因此探索图像和视频的高效存储、传输和理解对实现开放环境下的人工智能研究和应用具有重要的推动作用。

《中国科学报》 (2019-06-24 第4版自然科学基金)

编辑部推荐博文
问答之间｜idea被别人做过，要转变方向吗？科学网博主徐鑫力作，揭示科研成功秘诀 \| 赠书研究生学位论文如何顺利通过外审和答辩大庆油田是怎么形成的？新函数用于应对执行器故障的未知时变方向从“英国算”到“语数外” 更多>>