2022年1月24日晚,第三期“中国工程院院刊:信息与电子工程领域青年学术前沿论坛”成功举办。本期论坛主题为“大模型与端云协同:须弥纳于芥子?”,围绕端云协同机器学习前沿理论、方法和技术生态体系等主题,特别邀请清华大学翟季冬、上海交通大学吴帆、浙江大学况琨、北京大学刘譞哲以及阿里巴巴达摩院杨红霞、郑宏忠等专家、学者展开深度讨论。本期论坛由浙江大学上海高等研究院、上海交通大学计算机科学与工程系、阿里巴巴达摩院联合承办,浙江大学上海高等研究院常务副院长吴飞担任主持嘉宾,中国工程科技知识中心知领、浙江大学上海高研院(B站)、阿里达摩院(B站)、Paperweekly(B站)、信息与电子工程前沿(视频号)、学术世界(视频号)、蔻享学术七平台同步在线直播。
本期论坛,还特别发布了由上海浙江大学高等研究院、阿里巴巴达摩院、上海人工智能实验室联合打造的“洛犀”端云协同平台,该平台提供一站式的端云协同模型训练、部署、通信能力,致力于促进大小模型协同进化,构建充分利用大模型应用潜力的新一代人工智能体系。
(中国工程科技知识中心知领直播)
主持嘉宾吴飞教授在主持中提到,大模型是人工智能发展领域的重要阶段,为了让大模型的能力赋能不同的应用,需要迎接端云协同计算模式的来临。
(主持嘉宾:吴飞教授)
本期论坛特别邀请中国工程院院刊《Engineering》信息与电子工程学科执行主编李耀平教授致辞。李耀平在致辞中指出,星火之势可以燎原,中国工程科技在新时代科技强国战略发展中,中国工程创新、工业制造走向国际舞台,必然要凝聚自主创新的顶尖人才和成果。信息与电子技术显著的赋能作用在物质、能量、信息、集成组合的复杂系统中彰显出增长势头和巨大的发展前景。举办青年学术前沿论坛是中国工程院周济院士倡导、各学科编委会积极推动的一项前沿学术交流活动,为广大青年才俊与院士专家加强交流互动、扩大期刊影响、扩展高水平论文来源提供开放的平台。希望更多优秀人才成果不断汇聚在此平台、培养孕育出具有世界影响力的重大原创思想、工程成就和技术成果,为科技强国奉献力量。
(主编致辞:李耀平教授)
第一部分 主办期刊介绍
论坛首先邀请中国工程院三局学术与出版处处长、Engineering执行副主编丁宁以及FITEE编辑部主任翟自洋分别详细介绍了主办期刊的具体情况。
丁宁 | Engineering 迈向一流 引领创新
丁宁老师介绍《Engineering》的创刊背景,一方面响应国家战略需求——科技期刊传承人类文明、荟萃科学发现、引领科学发展,体现了国家的科技竞争力和文化软实力;另一方面顺应工程科技界期盼——世界范围内有著名的科学综合类的英文期刊Nature和Science,缺少工程综合类的顶级期刊。中国工程院作为工程科技界最高荣誉性咨询机构,依托工程院广大院士、团结世界各国工程院院士和科技工作者建立《Engineering》期刊,各学部与各高校和出版社合作建设分刊形成1+9+1的院刊体系,目前已有8本被SCI收录,2本进入Q1区,过半期刊进入Q2区,形成良好的发展态势。刊物定位是建设世界一流学术期刊、工程领域综合性权威期刊。期刊主编是工程院前院长周济院士,外籍主编是信息领域图灵奖得主Raj Reddy教授,执行主编是工程院秘书长陈建峰院士。期刊根据学科领域建立9个学科编委会,其中信息与电子工程学科主编是段宝岩院士,执行主编是刘宏伟、李耀平和吴飞教授。期刊已组织出版50个专题,形成9个常设专题。信息与电子工程领域已出版的专题有:网络安全、机器人、精密工程、人工智能,2022年即将出版的有6G、未来无线通信和传感天线、高端测量仪器,同时正在组织人工智能和微波传能的专题等。《Engineering》不仅是一本一流学术期刊,同时也是展现学术成果、促进学术交流的高端学术交流平台,欢迎更多专家关注和参与到平台构建中,通过期刊建设促进工程科技自身发展,从而实现改变世界造福人类的愿景。
翟自洋 | 《信息与电子工程前沿(英文)》办刊特色介绍
翟自洋老师在介绍中提到,FITEE是由中国工程院和浙江大学出版社共同主办,浙江大学出版社和Springer联合出版的期刊,出版领域包含计算机科学与技术、信息与通信工程、控制科学与技术、光学工程与技术、电子科学与技术和仪器科学与技术6个一级学科。目前影响因子是2.161,位于JCR Q2区,2019年入选中国科协等七部委推出的“中国科技卓越期刊计划”(梯队期刊)。FITEE围绕信息领域前沿、焦点方向(如人工智能、无线通信),由工程院院士或其他有国际影响力的学者担任主编,邀请国内外知名学者撰稿,2017年至今出版专题/专栏28个,15位院士及其他知名学者先后担任专题主编,已在人工智能、5G/6G无线通信等主题形成一定品牌和辨识度。为加强品牌建设、扩大影响,2019年起至今先后围绕人工智能、5G/6G无线通信、先进集成电路技术等主题举办5期FITEE论坛,同时与主刊联合主办此青年学术前沿论坛。FITEE同时承担工程院咨询项目,在2021年选出的十大研究前沿和开发前沿中,研究前沿排名第一位的是面向智能计算的存算一体技术,与今日论坛主题不谋而合。
第二部分 “洛犀”端云协同平台发布
“洛犀”端云协同平台发布仪式由阿里巴巴集团资深副总裁、达摩院智能计算实验室负责人周靖人博士主持。周靖人博士介绍了洛犀团队未来将进一步探索端云协同框架下端模型和云模型的协同机理,完善算法方案和业务实践,并计划未来对开发者开放,让大小模型协同进化的时代加速到来。
上海浙江大学高等研究院、阿里巴巴达摩院、上海人工智能实验室联合发布的“洛犀”端云协同平台,名字取自宇宙中大小星体间永恒的洛希吸引力,并含强大、坚韧之意,寓意大小模型珠联璧合,平台将提供一站式的端云协同模型训练、部署、通信能力,致力于促进大小模型协同进化,构建充分利用大模型应用潜力的新一代人工智能体系。
第三部分 专家报告
在专家报告环节中,阿里达摩院杨红霞、郑宏忠,清华翟季冬,上交大吴帆,浙大况琨,北大刘譞哲就端云协同有关技术、生态、模型理论和算法等主题分别展开分享。
杨红霞 | 端云协同平台“洛犀”技术体系和实践
杨红霞博士分享了“洛犀”的技术体系、发展实践和未来规划。此项目2020年7月正式启动,2021年5月完成业界首个端云协同学习框架,并于10月发布端云协同范式概述及实践经验,于论坛当日发布端云协同平台洛犀V1.0。首先介绍该端&云平台AI技术总览,端云协同模式第一在云上进行超大规模分布式学习,第二将云上的大模型压缩部署到端上进行推理,第三是端上学习,第四是回收模型,并介绍未来AI新范式将以端云协同分布式为中心,部分端计算终身学习即大小模型协同的训练和服务。然后介绍“洛犀”平台的设计和算法模型,“洛犀”整体分为云上和端上两部分,算法模型方面详细介绍了协同策略、端+预训练、端+GNN、端+RL四方面。协同策略将百模部署到端上,在网络全共享、不共享之间通过梯度修正实现“软共享”,并将系统的串行排序机制升级为协同排序,通过协同预测满足动态变化的用户意图。端+预训练方面介绍了业界不同的模型,并重点介绍达摩院的预训练模型M6。端+GNN业界尚未存在与端结合的应用,在此杨博士给出四种范式,目前已完成其中两种。端+RL在游戏和路径规划有广泛的应用,但在工业界的搜索、推荐和广告上效果不理想,达摩院在此方面提出五个范式并进行很多尝试。最后杨博士总结当下AI范式为云计算+预训练+微调的框架,并介绍未来AI新范式将为端云协同计算+认知推理。
翟季冬 | 基于国产超算的百万亿参数超大预训练模型训练方法
此项工作是2021年在国产高性能计算机上开展的大模型加速过程。预训练模型核心是Transformer模型,模型的计算主要集中在嵌入层、注意力层和前馈网络层,学术界已就模型规模与模型效果呈正相关形成共识,并行训练成为大模型的训练“标配”。混合专家(MoE)系统扩展了模型参数、提高了模型规模,相同训练时间效果优于稠密模型,代表未来大模型的发展趋势。同时翟教授指出预训练模型面临的挑战一是如何选取高效并行策略,二是如何进行高效数据存储,三是如何选取合适数据精度,四是如何实现动态负载均衡。大规模预训练模型需要大容量内存存储、大规模计算资源、高吞吐通信资源和复杂多样的通信模式,该研究基于国内尚未发布的新一代超级计算机系统,采用新一代神威体系结构芯片,契合以上需求,为大规模预训练模型提供了训练基础。团队所提出的脑规模预训练模型系统支持最高174万亿参数,并针对上述四个挑战提出解决方法,分别是混合数据并行与MoE并行的高效并行策略、针对大规模MoE模型的分布式参数更新策略、细粒度高效混合精度方法的分层混合策略以及轻量级高效负载均衡策略。将以上方法整合到神威超算平台,并针对神威软件系统、算子库、深度学习编程框架和基础设施作了大量优化,实现首次在国产超算平台上支持完整的预训练流程、首次支持高达百万亿参数模型规模训练。
吴帆 | 移动端智能计算
吴帆教授首先介绍移动端智能设备的源起、发展和应用。面对云智能不能传、传不了、算不动的三大约束,端智能显现出性能好、成本低、易扩展等明显优势。端智能发展由云上训练+推理到云上训练+端上推理,最终实现多终端协同训练。吴教授重点介绍手机淘宝团队研发的Walle端智能系统,主要包括计算容器、数据管道、部署平台等部分,后形成大规模端智能联合学习的成果,实现联合学习框架。然而针对手机淘宝超大规模的联合学习,此框架不可行,因而提出基于特征的模型切分即子模型,实现联合子模型学习、数据和模型并行,同时优化子模型隐私保护机制,赋予终端对其真实子模型位置可调控的依赖性。联合子模型学习实现降低80.05%通信开销、85.02%计算开销,模型准确率提升7.2%,是一种可行的亿级维度深度学习模型端上联合训练方法,且被国际同行广泛认可。为将上述模型应用于淘宝,在Walle的基础上搭建以数据和模型管理、云上样本下发、端上训练为核心的端云协同链路,相比于传统“云管端”方案新增云上用户粒度的样本管理和任务管理模块、个性化样本下发通道和任务发布通道以及端上样本筛选、模型训练、模型推断、模型版本控制、样本生命周期控制模块,现已加入淘宝首页信息流和我的淘宝icon区取得良好点击率和转化率。
况琨 | 因果可泛化学习
况琨教授在报告中分享从因果角度赋能端云协同的思考。当前,深度学习面临不可解释、不稳定等重大挑战,究其根源在于因果机制尚未融入机器学习,因此深度学习需要从关联分析跨越到因果推理,知其然并知其所以然。因果特征的改变会影响预测结果,非因果特征的改变不会影响预测结果。当训练数据集有偏时,因预测结果严重依赖重要特征而将非因果特征作为重要特征导致结果不稳定。传统的关联分析在评估两个变量之间相关性时,没有考虑其他变量特征,而在因果框架里,当评估两个特征之间的因果效应时,需控制其他特征,将变量相对独立,恢复每个变量与结果变量的因果关系,只剩因果特征与结果相关,非因果特征与结果独立。况琨教授团队主要研究基于因果的跨模态预训练,指出传统预训练主要还是基于关联驱动的,团队基于BERT结构设计了4种去混杂因果干预结构,旨在引入因果,削减虚假关联。
郑宏忠 | 存算一体芯片架构突破AI/HPC计算内存墙瓶颈
当前处于人工智能时代,是计算机科学的重大变革。郑博士团队基于模型算力需求、硬件峰值算力和内存性能增长,从突破AI算力的角度来突破内存墙瓶颈,介绍了系统、架构、芯片的硬件解决方案以及存算一体芯片研究愿景。当前存算一体芯片面临技术成熟度不高、软件不兼容、行业生态贫乏、数据安全问题等,并处于AI计算、视频图像处理的阶段,在通用计算上的性能和能效有一定限制。郑博士针对以上问题分别介绍了团队所做的工作。同时重点介绍已被芯片领域顶级会议ISSCC 2022收录并将于2月发表的基于混合键合技术的三维堆叠AI芯片。它可解决冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存系统和极致算力的需求。与传统芯片相比,该芯片可提供20倍以上的片上存储容量(4 GB高速内存),内存能耗低至0.88 pJ/bit。测试显示,在实际推荐系统应用中,该芯片相对于传统CPU计算系统可以达到10倍以上性能提升和300倍的能效提升。针对典型应用的存内计算架构探索方面,介绍利用ReRAM阵列加速图神经网络架构、基于近存计算芯片的图像处理加速架构以及基于ReRAM器件的Bayes NN加速架构。以上工作均为未来走向AGI以及实现类脑计算存算一体打下基础。
刘譞哲 | 面向泛在智能的系统软件
刘譞哲教授的报告围绕泛在智能的系统软件的研究进展进行分享。智能化是泛在计算环境下软件的重要特征之一,随着硬件资源和上层应用越来越多,系统软件扮演着重要角色,AI已成为各行业领域软件的重要组成成分。报告介绍了AI系统软件的体系结构风格,指出云在智能软件中的作用(特别是模型训练)不可替代,但完全依靠云端的计算模式难以适应规模化智能处理(如物联网和工业互联网)。在端侧应用集成ML/DL模型的深度和广度不断增加,使应用场景根据丰富;在端侧进行训练环节隐私问题,并支持个性化;在端侧进行推理,减少与云端交互,降低网络依赖。于是越来越多的ML/DL模型部署在智能手机、物联网设备、边缘端的软件上,即呈现泛在化的趋势。围绕泛在智能典型场景如隐私数据保护、工业场景安全监控等,指出泛在智能系统面临的机遇和挑战,归纳出模型部署复杂、质量保障困难、设备算力限制等技术难题。针对以上问题,刘教授介绍了团队的解决成果:在终端模型部署和转换工具方面定义模型操作语言和转换方式以保障异构模型在终端系统上的正确快速部署,大幅减少手工编码量;在终端模型训练算法方面利用云端融合、公私合赢的思路在终端数据训练量不足时保障模型精度;在终端模型训练容器方面重构TF的算法驱动程序和MNN资源管理框架、在终端自适应推理加速方面实现多种计算分载模式,在资源受限的终端设备训练时保障性能和能耗需求;提出跨层数据流追踪分析技术和时序敏感的层间缓存优化方案,在无网络连接时端侧推理性能加速较同期主流方法提升2倍。应用案例如手机输入法、语音助手、电网安全操作场景检测、列车员安全操作监控等。最后介绍团队自主研发的泛睿泛在智能系统,目标是打造面向泛在智能的系统软件平台和工具链。
今日编辑:陈泓言