师资队伍

孙梦姝

电话:

E-mail:sunms@bjut.edu.cn

通讯地址:北京工业大学理科楼

研究方向

1. 深度学习模型的压缩:针对卷积神经网络、Transformer等多种模型,采用硬件友好的量化和剪枝等压缩方式,降低模型参数量和计算量,从而实现模型在硬件上的实质性加速,且保证准确率。

2. 深度学习模型的软硬件协同加速:在FPGA等边缘设备上结合模型压缩方法设计运算单元,实现实时图像分类、目标检测、视频动作识别等应用。

个人简介

2014年本科毕业于哈尔滨工业大学,分别于2016年和2022年在美国南加州大学和美国东北大学获得硕士和博士学位。主要研究方向和兴趣包括深度学习模型压缩以及软硬件协同加速、边缘计算、深度学习模型安全性等,在ICCVAAAI等顶级人工智能会议以及HPCADACFPGA等计算机体系结构/并行与分布计算会议发表多篇学术论文。担任TCAD杂志、Integration, the VLSI杂志、AAAI会议审稿人。

教育简历

美国东北大学         博士      计算机工程                    2017.9 – 2022.8

美国南加州大学     硕士      电子工程                        2014.8 – 2016.5

哈尔滨工业大学     本科      电子信息科学与技术    2010.8 – 2014.6

代表性研究成果

1. 深度学习模型在FPGA上的加速:

- 结合混合精度及混合模式的模型量化,实现加速二维卷积神经网络和Transformer神经网络在FPGA上的加速框架;

- 利用多种优化技术提高硬件上计算和存储资源的利用效率,以提高计算吞吐量;

- 建立计算的并行度与硬件资源利用量的关系模型,便于指导硬件资源的合理分配。

 

2. 动作识别加速:

- 使用结构化稀疏模式对三维卷积神经网络进行模型剪枝,减少计算量;

- 将剪枝后的模型部署在硬件(手机和FPGA)上实现加速,在手机GPU上的运行时间可以达到每个16帧视频150毫秒内。

主要论文论著

[1] [FPGA’22] Mengshu Sun#, Zhengang Li#, Alec Lu#, Yanyu Li, Sung-En Chang, Xiaolong Ma, Xue Lin, and Zhenman Fang. Film-qnn: Efficient fpga acceleration of deep neural networks with intra-layer, mixed-precision quantization. In Proceedings of the 2022 ACM/SIGDA International Symposium on Field-Programmable Gate Arrays (FPGA), pages 134–145, 2022.

[2] [DAC’20] Mengshu Sun#, Pu Zhao#, Mehmet Gungor, Massoud Pedram, Miriam Leeser, and Xue Lin. 3d cnn acceleration on fpga using hardware-aware pruning. In 2020 57th ACM/IEEE Design Automation Conference (DAC), pages 1–6. IEEE, 2020.

[3] [AAAI’21] Wei Niu#, Mengshu Sun#, Zhengang Li#, Jou-An Chen, Jiexiong Guan, Xipeng Shen, Yanzhi Wang, Sijia Liu, Xue Lin, and Bin Ren. Rt3d: Achieving real-time execution of 3d convolutional neural networks on mobile devices. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), volume 35, pages 9179–9187, 2021.

[4] [HPCA’23] Peiyan Dong, Mengshu Sun, Alec Lu, Yanyue Xie, Kenneth Liu, Zhenglun Kong,Xin Meng, Zhengang Li, Xue Lin, Zhenman Fang, and Yanzhi Wang. Heatvit: Hardware-efficient adaptive token pruning for vision transformers. In 2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA), pages 442-455, 2023.

[5] [HPCA’21] Sung-En Chang#, Yanyu Li#, Mengshu Sun#, Runbin Shi, Hayden K-H So, Xuehai Qian, Yanzhi Wang, and Xue Lin. Mix and match: A novel fpga-centric deep neural network quantization framework. In 2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA), pages 208–220. IEEE, 2021.

[6] [ICCV’21] Sung-En Chang#, Yanyu Li#, Mengshu Sun#, Weiwen Jiang, Sijia Liu, Yanzhi Wang, and Xue Lin. Rmsmp: A novel deep neural network quantization framework with row-wise mixed schemes and multiple precisions. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 5251–5260, 2021.

[7] [DAC’22] Mengshu Sun#, Zhengang Li#, Alec Lu#, Haoyu Ma, Geng Yuan, Yanyue Xie, Hao Tang, Yanyu Li, Miriam Leeser, Zhangyang Wang, Xue Lin, and Zhenman Fang. Fpga-aware automatic acceleration framework for vision transformer with mixed-scheme quantization: late breaking results. In Proceedings of the 59th ACM/IEEE Design Automation Conference (DAC), pages 1394–1395, 2022.