|
|
FCS 文章精要:北京航空航天大学杨海龙副教授团队——面向申威众核处理器的深度学习张量优化代码生成技术 |
|
论文标题:Towards optimized tensor code generation for deep learning on sunway many-core processor
期刊:Frontiers of Computer Science
作者:Mingzhen LI, Changxi LIU, Jianjin LIAO, Xuegui ZHENG, Hailong YANG, Rujun SUN, Jun XU, Lin GAN, Guangwen YANG, Zhongzhi LUAN, Depei QIAN
发表时间:27 Feb 2023
DOI:10.1007/s11704-022-2440-7
微信链接:点击此处阅读微信文章
导读
深度学习框架和硬件平台的蓬勃发展需要高效的深度学习编译器,来屏蔽深度学习框架和底层硬件的多样性,并实现海量深度学习应用的高性能和高可移植性。在现有的深度学习编译器中,TVM因其在不同硬件设备上能够进行多级优化并生成高效代码而得到普遍应用。同时,申威众核处理器因其突出的计算能力在科学计算领域和深度学习领域上具有广泛应用前景。本文结合了深度学习编译器TVM和申威众核处理器的优势,提出了swTVM。它扩展了TVM以支持需要AOT提前编译以及交叉编译的申威编译环境,并在张量代码编译过程充分利用了申威处理器的体系结构特点,如用于众核并行的核组、高访存带宽的DMA传输、低存取延迟的本地设备内存等,从而能够为申威处理器上的深度学习应用生成高效的代码。实验结果表明,与申威处理器上最先的深度学习框架相比,swTVM生成的代码在八个具有代表性的深度学习模型上实现了平均1.79倍的推理延迟改进。特别地,这项工作是第一次从编译器的角度并尝试弥合深度学习和申威处理器之间差距以提升开发效率。我们相信这项工作将鼓励更多人利用申威处理器的计算能力来高效运行深度学习任务。
文章信息
相关内容推荐:
文章精要 | 华中科技大学廖小飞教授团队:一种支持细粒度数据迁移的混合内存架构 2024 18(2):182103
文章精要 | 高性能计算系统软件弹性技术综述 2023 17(4):174105
文章精要 | 华中科技大学郑龙老师团队:ReCSA: 基于阻变存储器的内容可寻址内存设计的专用排序加速器 2023 17(2):172103
文章精要 | 上海交通大学陈全教授团队:Kronos: 仓库级计算中总线竞争感知的任务调度 2023 17(1):171101
微服务时代的云计算系统性能优化综述:前沿技术与研究挑战 2022 16(6):166106
GCSS:一个面向广域高性能计算环境的全局协同调度策略 2022 16(5):165105
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、
、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中12种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。