为满足实时语义分割对计算资源的严格要求,大多数方法都侧重于手工设计轻量级的分割网络。近年来,研究人员使用神经结构搜索(NAS)来自动搜索网络的最优构件,但网络深度、下采样策略和特征聚合方式仍然是由预先试错设定的。
在本文中,李玺教授(浙江大学上海高等研究院副院长、浙江大学每日互动数据智能研发中心主任,浙江大学教授,博士生导师)及其合作者提出AutoRTNet(自动搜索实时语义分割网络)这一联合搜索框架,实现同时自动搜索构件、网络深度、下采样策略和特征聚合方式。该网络从两层卷积层开始,包含三个超单元(hyper-cell),通过单元级的修剪过程寻找最佳的网络深度和下采样策略,每个超单元包含一个还原单元(reduction cell)和n个常规单元(normal cell)。在下图中,用白色虚线标记的单元是在优化后被修剪过的。为了有效地实现多尺度特征自动聚合,作者们还设计了聚合单元,无缝地被整合到超单元的输出中。
具体来说,李博士等采用超单元结构,通过单元级的修剪过程,以自适应的方式学习网络深度和下采样策略,并通过聚合单元实现多尺度特征的自动聚合。
实验结果表明,AutoRTNet在Cityscapes测试集上取得了73.9%的mIoU,在输入图像为768×1536的NVIDIA TitanXP GPU卡上达到110.0 FPS。这些都表明该方法在Cityscapes和CamVid数据集上具有优越性和有效性,具体情况请分别参见下图。
该工作发表在International Journal of Computer Vision一刊,详情请见Real-Time Semantic Segmentation via Auto Depth, Downsampling Joint Decision and Feature Aggregation | SpringerLink
今日编辑:徐敏