人类眼中所见是如何被转化为脑中图像的,这是神经科学家一直在努力破解的问题。
随着对该问题研究的不断深入,如今人工智能(AI)在模仿上述图像转化过程方面表现得越来越好。
近日,一项日本研究团队开展的新研究中,AI可以通过读取大脑扫描,重建与人们所看到的真实景象大致相近的图像。研究人员表示,随着该技术的发展,有望将其应用于多种场景,比如探索各种动物如何感知世界,甚至记录人类梦境、帮助瘫痪者与他人交流。相关研究预印本已于去年发表,并将于近期举行的计算机视觉国际大会上正式公布。
事实上,许多实验室都在研究通过AI读取大脑扫描,重建受试者近期看到的人脸、风景图像。而这项新研究首次将Stable Diffusion这一模型成功应用于上述图像重建过程。
Stable Diffusion由德国研究人员开发,于2022年公开发布,与其他文本到图像的AI“生成”模型类似,都是通过在与文本描述相关的数十亿图像中进行训练后,从文本提示中生成新图像。
在这项新研究中,研究团队为Stable Diffusion增加了额外训练,即将关于数千张照片的额外文本描述,与大脑扫描研究参与者观察这些照片时得出的大脑模式联系起来。
与之前使用基于大数据训练AI算法破译大脑扫描不同,Stable Diffusion能够从较少的训练中获得更多信息。
未参与该研究的美国普林斯顿大学认知神经科学家Ariel Goldstein表示,这是一种结合文本和视觉信息来“破译”大脑的新方法。
开展这项新研究的大阪大学系统神经科学家Yu Takagi介绍,功能性磁共振成像(fMRI)通过扫描检测大脑活动区域血流变化,记录活动峰值。fMRI记录了大脑中与图像感知相关的不同区域,如枕叶(负责记录布局和透视信息)和颞叶(负责记录图像内容)的活动信息,而他们的AI模型则将上述活动值转换为图像。这就是新研究重建图像的原理。
研究人员使用明尼苏达大学提供的在线数据集对Stable Diffusion进行了额外训练。该数据集包括4名参与者观看10000张照片时的脑部扫描,其中一部分用于模型的额外训练,还有一部分用于后续测试。
Takagi表示,新方法比以前的方法效率更高,可以用更小的数据集对模型进行训练。
研究人员发现,大脑活动扫描提供了足够的信息,以重新创建人们看到的图像的布局和视角。但是,该算法很难让真实的物体分毫毕现,例如钟楼重建后的图像是抽象的图形。
解决上述问题的方法之一是使用更大规模的数据集来进行训练以预测图像的更多细节。但目前fMRI数据集有限,于是研究人员利用fMRI数据集中照片附带的图片说明里的关键词来规避这个问题。
例如,如果其中一张训练照片包含钟楼,那么扫描中的大脑活动模式将与该物体直接关联。这意味着,如果研究参与者在测试阶段再次展示了相同的大脑模式,系统会将相应关键词输入Stable Diffusion的文本-图像生成器中生成钟楼,并按照大脑模式所指示的布局和透视图,将其纳入重建的图像中,使其更接近真实图像。
然而,AI系统只在提供训练大脑扫描的4个人范围内进行测试,如果将其扩展到其他人的大脑扫描中,则需要对进行再培训。因此,这项技术距离普及还有一段路要走。
相关论文信息:https://doi.org/10.1101/2022.11.18.517004
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。