2021至2023年AI领域研究热点分析述评与展望
魏子舒,韩越,刘思浩,张圣宇,吴飞
摘要
浙江大学上海高等研究院常务副院长吴飞教授团队近日在《计算机研究与发展》发表了“2021至2023年AI领域研究热点分析述评与展望”论文,对三年来人工智能发展热点进行分析,并预测了其趋势。“二年长枝叶,三年桃有花”,我们转发本文,希望对大家把握人工智能领域发展有所作用。
内容简介
1.对 2021~2023年间在中国计算机学会推荐的AI领域CCF-A类国际会议和期刊所发表论文的研究成果进行收集,并在此基础上采用文献计量学的方法论来通过关键词对研究热点进行分析.
2.对当前研究热点如大模型(large language model,LLM)、AI驱动的科学研究(AI for Science)和视觉生成相关论文的关联热点进行分析,可以挖掘技术路径和方法论的演变,展现技术创新背后的科学理论和应用前景,从而进一步揭示AI研究的最新趋势和发展前景.
主要内容
0. 引言
人工智能(artificial intelligence,AI)具有增强任何领域的技术的潜力,是类似于内燃机或电力的一种通用目的使能技术,被广泛应用于其他众多领域.2017年7月,国务院印发《新一代AI发展规划》,这是本世纪以来中国发布的第一个AI系统性战略规划,这一规划提出了面向2030年我国新一代AI发展的指导思想、战略目标、重点任务和保障措施,推动了AI发展.
由于AI技术研发和落地应用的复杂性,亟须对世界范围AI前沿研究近年来的发展状况和研究特性进行总结梳理. 因此,本文采用定性分析与定量研究相结合的研究方法,对2021~2023年间,中国计算机学会推荐的CCF-A中AI国际会议和期刊论文研究成果进行深入分析. 本文从多维度解读AI的最新趋势,涵盖基于高频关键词分析研究热点、基于新增关键词分析研究趋势、基于引用量加权的关键词分析高影响力研究等,以期为学术界和产业界揭示AI最新发展,为政策制定和行业应用提供参考和依据.
本研究进一步深入探讨了当前研究的核心热点,大模型(large language model,LLM)、AI驱动的科学研究(AI for Science)以及视觉生成的相关技术,并按时间进行统计分析,揭示其关键技术发展路径和方法论的演变,为理解技术创新背后的科学原理和未来应用前景提供了新的视角.
1. 基于高频关键词的热点影响力分析
结合3年数据分析,由图1和图2可以发现,迁移学习(transfer learning)、认知计算(cognitive computing)这2个关键词在高频关键词和引用量加权高频关键词统计结果中均排名靠前.
对高频关键词的分析揭示了当前的计算机研究的热点话题和趋势,基于这一趋势我们可以更好地把握未来的发展方向和机遇. 对高引用论文关键词进行分析则可以揭示当前计算机研究的重要影响力方向和论文价值,从而帮助研究人员了解研究重心和关注点.2021~2023年期间迁移学习(transfer learning)、认知计算(cognitive computing)在高频关键词和高引用论文高频关键词中频数明显增强,说明AI研究方向正在朝向智能化和自适应算法进行开发. 知识表示(knowledge representation)和情感系统(sentiment system)等关键词的增长,也说明了计算机系统逐渐重视提供更加人性化和自然化的交互体验,更注重融合知识和情感信息来理解用户意图和需求. 同时,计算机视觉任务仍然是计算机领域最重要研究方向之一. 从2021年的图像识别、目标检测到2023年图像处理、图像分割,计算机视觉在高频关键词和高引用论文高频关键词均有相应的高频领域,这得益于计算机视觉在自动驾驶、医学影像等众多领域广泛的应用场景. 但是相比于2022年,2023年的研究更加注重与自然语言处理方向的开发,如2022年最为热门的图像处理在2023年下降到了第6位,而2023年情感系统、文本分类等自然语言处理领域的研究分支的频数则较前一年大幅上涨. 另外,对比2022年和2023年数据可以发现,传统的模型驱动的方法(如决策树、贝叶斯网络等)的频数有所下降,而数据驱动的方法,如迁移学习、生成模型等的频数逐渐增加. 同时知识表示、情感分析等关键词的增加,表明计算机领域正与其他学科,如心理学、语言学等进行更紧密的交叉融合. 这种趋势不仅有助于解决不同学科领域复杂的问题,也为跨学科的合作和交流提供了更多的机会.
分析近3年数据统计结果可以发现,计算机研究领域出现了许多新的热点和趋势. 首先,随着大数据时代的到来,数据规模呈现爆炸式增长. 为了从这些海量数据中提取有价值的信息,数据处理和数据分析成为计算机领域研究和应用的重要方向,大数据、知识表示等相关关键词成为高频关键词重要组成部分. 其次,人们对人机交互体验的需求升级,使得计算机应用逐步向着智能化、自然化的目标发展,认知计算、情感分析等研究领域成为向着高度智能化方向发展的关键驱动力. 再者,元宇宙、物联网等概念的兴起,带动了应用驱动AI的发展,使得AI被广泛应用于智能驾驶、AR/VR等场景,为语音识别、目标检测等传统研究分支带来更广阔的应用场景. 然后,大模型、扩散模型等新兴技术的崛起,在AI领域引发了前所未有的变革,多模态和交叉化成为AI研究前沿的重要趋势. 最后,传统机器学习研究如决策树、贝叶斯网络等技术由于其高度可集成性和稳定性,在金融、医疗等领域都得到广泛的应用,成为AI研究领域的热点.
2. 基于新增关键词的热点趋势分析
表1是比较2021、2022这2年关键词数据后得出的2022年前10位新增关键词数据,以及表2是比较2022、2023这2年关键词数据后得出的2023年前10位新增关键词数据.
分析表1~2中数据可见,生成模型(generative model)、文本分类(text classification)、语音识别(speech recognition)是这2年的新增关键词中最靠前的3个. 其中,生成模型这个关键词代表着AI在各个方面的研究探索的逐渐深入,而文本分类和语音识别2个关键词则反映着AI领域的研究探索方向逐渐由计算机视觉方向转向自然语言处理方向. 生成模型旨在学习数据分布并生成新的数据样本.2022年,生成对抗网络(generative adversarial network, GAN)、扩散模型、CLIP等技术的累计融合,催生了 Imagen和DALL-E 2等生成模型应用落地,带动了数字人、元宇宙产业高速发展,生成模型进入了全新的时代. 其中,GAN是一个重要的新兴分支,在2022年的新增关键词中排名第4. GAN通过训练生成器和判别器2个神经网络模型来达到任务要求,其中生成器试图生成看起来像真实样本的数据,而判别器则试图区分真实数据和生成器生成的数据. 这2个网络相互对抗,生成器不断改进以欺骗判别器,而判别器不断改进以更好地区分真实数据和生成的数据. 最终,生成器能够生成逼真的数据,而判别器能够准确地区分真实和生成的数据. 这样的训练方式使得GAN可以生成细节充足而十分逼真的数据.GAN作为生成模型的代表,推动了图像生成、风格迁移等领域的研究,对GAN的改进和应用进一步促进了生成模型领域的创新. 文本分类是指将文本分配到预定义的类别中的任务.[17]随着数字文档的数据量指数级增长,如何从海量数据中提取文本数据具备表现力特征成为自然语言处理处理领域新的挑战,对于文本分类这一自然语言处理领域基础的任务的深入研究可以更好地解决这一问题,进而推动对自然语言处理领域其他任务的研究. 语音识别是指通过识别和理解语音信号,将语音转换为相应的命令的过程. 语音识别能够有效提高人机交互水平,为物联网的发展提供助力. 这2个新增关键词都代表着自然语言处理领域的任务,且位列2023年新增关键词的前3名,体现着研究热点向自然语言处理方向发展的趋势.
结合2022年和2023年的全部热点趋势关键词可以看出,ChatGPT的发布对AI领域的研究热点趋势产生了深刻的影响.2022年的热点趋势关键词主要聚焦于生成模型方面以及模型训练性能优化方面. 由于数据量的增大、数据处理难度的升高,在这些方面进行研究,可以使得AI模型更加充分地利用计算资源和数据资源,得到更好的性能.ChatGPT发布后,2023年的热点趋势关键词主要聚焦于自然语言处理方面,利用大模型进行自然语言处理,使得自然语言处理领域的研究更加易于展开;同时,可解释性、通用AI等热点趋势关键词也反映了在大模型兴起的条件下,AI领域进一步的发展方向,这些方向可能会成为未来AI领域发展的深层次趋势,对整个AI领域产生长远的影响.
3. 基于关键词对的热点关联分析
单个关键词虽然可以直观反映AI领域的研究热点和发展新趋势,但是有时难以全面反映研究内容. 部分关键词包含的内容非常广泛,也因此难以明确研究的焦点所在. 而针对关键词对的研究则可以弥补部分研究分析的空缺. 对2021~2023年这3年的热点关键词对的梳理和整合,能够从关键词对中发现热点的关联,以及部分热点之间内在的联系和衔接,更全面地分析不同领域之间的当下发展境况和未来发展方向.
基于3年的热点关键词对的数据,如表3~5所示,整体而言,较多热点关键词对由热点关键词的两两组合构成,对于不同领域的技术的融合以完成综合性的应用的趋势逐渐明显. 在2021年,AI技术进入了快速发展阶段,在大模型人机交互和训练数据集方面有深入研究. 自然语言处理(natural language processing,NLP)、计算机视觉(computer vitsion,CV)和数据挖掘较多地出现在热点关键词对中,体现出这些技术在具体应用中的深度融合.2022年,强化学习(reinforce learning)的热度上升. 新的强化学习算法被提出并广泛应用,强化学习预训练模型研究技术发展,新型计算智能体接连被提出,强化学习和NLP,CV等经典领域的结合成为该时间段的热点趋势.2022年底,ChatGPT聊天机器人的横空出世让AI在数字世界中得到了更多的关注. 相比于2021年,2022年热点关键词的总体频数大幅度上升,热点研究聚焦于通过综合应用多方面的AI知识,构建具备较完备功能的智能体.2023年,热点关键词对综合并延续了2021~2022年的情况,同时诸多大语言模型涌现, AGI和生成式AI(artificial intelligence generated content,AIGC)等相关方面的应用需求大幅度增长,AI领域大踏步向前发展. 机器人技术(robotics)应用方面和其他领域的融合日益紧密.
整体上看,相较于2021年关键词对中呈现出专业领域的组合和学科交叉的趋势,在2022年,统计的热点关键词对的频数和比率大幅度上升,关键词之间互相的关联性逐渐受到重视,融合性研究趋势更为明显. 相比之下,2021年,AI在各个专业领域的应用较为热点,而2022年,AI技术用于解决实际问题的研究则更受关注,这是由于AI领域逐渐拓宽,跨学科交叉融合研究成为热点并推动AI技术在多领域的发展应用.2023年,机器人技术和其他技术的结合更深入,机器拥有“智能”的诸多成功应用引发了相关方面的热潮.
另一方面,在大数据时代的背景下,对于数据挖掘的研究也有所增加. 数据挖掘是指在相对较大型的数据集中发现模式的过程. 虽然在2021年,NLP和CV与数据挖掘的结合有明显的热点趋势,但是2022年,相关研究整体更为关注新兴的算法和应用. 而2023年,大型训练数据集依次推出,数据挖掘作为大数据时代AI领域非常重要的一部分,重新得到更多重视. 数据挖掘可以捕捉大量数据中的关键信息,NLP、CV方面的算法能给它带来很大的启发. 同时,数据挖掘中的新的发现也能够为NLP和CV的预测建模、关联分析等步骤打下坚实的基础.
4. 针对部分热点话题的热点分析
在分析每年的热点的基础上,本文还针对近期广受各界关注的话题进行AI领域研究热点的分析. 针对这些热点话题进行分析时,首先通过论文的标题和摘要将本文的数据集中和这些热点话题相关的论文筛选出来,随后统计出这些筛选出的论文的高频关键词,并依据这些关键词进行热点分析.
本文选择了大语言模型、AI驱动的科学研究(AI for science)以及视觉生成3个主要的话题进行分析.
4.1 大语言模型相关论文的热点分析
大语言模型通常指的是参数规模较大的机器学习模型,这些模型在训练时通常包含数亿乃至数百亿个参数,通常需要庞大的计算资源和数据集来进行有效的训练.
综合三年数据(图3)来看知识表示(knowledge representation)、数据增强(data augmentation)、认知计算(cognitive computing)、信息检索(information retrieval)在大语言模型相关研究中一直占据重要地位. 大语言模型通过学习大量数据统计规律生成高质量自然语言文本,但是如何将生成高质量文本和精确领域专业知识结合来回答用户需求往往是大语言模型迫切需要解决的问题. 知识表示通过结构化表示描述现实世界知识,目标是构建全面一致的知识库,帮助大语言模型理解和推理自然文本问题. 因此,借助知识表示形成大规模结构化知识库、构建知识图谱与大语言模型之间的结合被广泛研究. 同时,由于大模型包含数以万计的模型参数,如何在数亿规模的信息流中实现高效的信息检索成为大模型研究热门领域. 此外,由于多模态研究领域爆火,处理图像、视频等复杂数据也逐渐成为信息检索关注的重点领域. 另一方面,如何构建高质量数据集来组建知识库也是大模型研究领域重点之一,借助数据增强可以在数据稀疏的专家领域有效构建特定下游任务数据集合,数据增强对增强模型泛化能力和鲁棒性起到至关重要的作用. 随着大模型不断发展,大模型任务不仅局限于自然语言任务,结合多模态知识是大模型通向通用AI领域的必经之路,认知计算通过将认知科学和传统音频、文字、图像等多模态信息处理机制相结合,持续整合知识丰富的数据,使得大模型具有解决几乎所有现实领域问题的能力.
随着2022年末OpenAI发布ChatGPT,2023年大模型领域研究迎来高潮,成为整个AI领域的热点. 一方面与大模型基础密切相关知识表示、数据增强、信息检索等研究的热度飞速增长,另一方面通用AI相关研究随着大模型性能提高逐渐成为2023上半年研究热门. 通用AI的目标是完全人类智能行为,它是能够执行人类智能活动的计算机系统,具备自主感知和认知、学习、决策、执行等能力. 大模型发展逐渐拉开了通用AI发展的序幕. 此外,语义分析在2023年下半年发展也十分迅速,语义分析目的是对文本的意义和语境进行深入的分析. 涉及到对短语、词汇、句子和结构进行更高层次的理解,以捕捉其中所包含的意义和信息. 随着LLaMA等开源大模型[26]发布,模型具备了从公开数据集和模型架构进行预训练从而获取通用语义分析数据的能力;同时,LLaMA的发布也推动了全球研究者基于开源大模型对多任务语义分析应用以及不同类型的下游任务进行进一步创新和优化. 因此优化和语义分析成为2023上半年和下半年关键词.
4.2 AI for science相关论文的热点分析
AI for Science是指采用AI技术,解决复杂推演计算问题、加快基础科学和应用科学的发现和验证的研究.AlphaFold在预测蛋白质结构任务的优秀表现揭示了AI在科研领域的无限潜力.
如图4所示,结合2021~2023年的数据来看,数据挖掘、NLP、模式识别(pattern recognition)、认知计算是这3年AI for Science相关研究的常驻热门. 这段时间,随着大数据爆炸式增长,数据挖掘和模式识别在处理和分析大量数据方面发挥着关键作用,数据挖掘负责从大量数据中提取有价值信息和知识,模式识别则是学习隐藏在这些大规模数据中模式和特征,从而结合数据挖掘技术实现更明智的决策辅助. 在生物医学领域,数据挖掘广泛应用于发现疾病特征和规律,模式识别可以辅助发现新的药物靶点和治疗策略,为药物研发提供全新思路. NLP旨在研究如何让计算机理解自然语言,包含词法分析、句法分析、语义理解、信息抽取等多领域研究和应用. 自然语言处理在科研领域具有广泛的应用前景和市场潜力. 一方面,自然语言处理能够自动化识别科学文献关键词和核心内容,提高文献检索准确性和效率,另一方面自然语言处理能够高效地将非结构化的实验信息转化为结构化数据,方便后续的数据处理和分析. 认知计算是指通过模拟人脑认知过程进行感知和推理,帮助决策者从大规模非结构化数据中发现知识,实现不确定性推理的过程. 相比于传统计算方式,认知计算能够实现自我优化和深度学习,从而有效解决各类难题. 下面本文将依据时间分析其他高频关键词信息以及变化趋势.
整体来看,2021年以前,数据挖掘、NLP、模式识别和认知计算等方向成为AI for Science的热点. 到2021年,随着AI技术的快速发展,构建高质量科学知识库成为热点话题. 知识表示相关领域为之提供了巨大帮助.2022年,迁移学习的热度上升. 它允许在不同领域任务间共享预训练的数据源,在生物医学、工业故障检测等领域表现出色.2022年下半年至2023年,ChatGPT模型的发布使得自然语言处理的相关研究得到了爆炸式的增长,通用预训练语言模型的发展不仅提高了AI在不确定性领域的推理能力,还促进了大模型与专业科学知识结合的研究. “AI+X”的模式兴起. 在相关算法和处理模式发展的基础上,随着专业知识库的构建日臻完善,AI技术在各专业领域的研究诊断、侦测探查等方面也越发深入.
4.3 视觉生成相关论文的热点分析
生成模型(generation model)是基于训练数据生成与训练数据分布相同的新数据的模型. 图像生成作为AI领域的经典任务,很长一段时间以来都是AI领域的研究热点;同时,随着计算机视觉的发展,视频合成也逐渐成为研究热点,成为视觉生成的重要领域.
如图5所示,根据2021~2023年视觉生成相关高频关键词,变分自编码器(variational autoencoder ,VAE)、生成对抗网络(generative adversarial network, GAN)和扩散模型(diffusion model)是图像生成和视频生成领域的热门方向. VAE的主要思路是通过引入潜变量和变分推断来学习训练数据集的分布、通过损失函数的设计使得模型对于噪声具有一定的鲁棒性,这使得VAE在生成任务方面表现出色;之后出现的VAE的各种变体如CVAE、HVAE等,都使得VAE在生成方面的表现更加优秀. 生成对抗网络也在生成领域有很出色的表现,它的主要思路是通过并发地训练生成器和辨别器使生成器和辨别器协同进化,最终得到生成样本与真实数据分布高度相似的生成模型. 随后的CGAN、Style GAN等GAN的变体使得用户可以指定GAN生成何种图片,让GAN在生成任务方面具有更加优秀的性能.
值得注意的是,2023年视频合成(video synthesis)出现在热点关键词中.2023年,如LDM(latent diffusion model)、stable diffusion等模型被用于视频生成任务之中,诸如Runaway,Pika,Sora等视频生成模型发布,并且为各个领域所应用.2023年,视频生成这个领域真正地被探索,并成为了视觉生成领域全新的发展方向.
对AI领域未来发展的展望
如表6所示,基于这些AI相关项目的关键词数据,排名最靠前的是STEM教育体系(STEM education)和交叉学科研究(interdisciplinary research),且相比其他关键词的热点优势较大. 可见这两个领域和AI的融合正在逐渐深入,且有广阔前景. 教育和AI的深度结合已成为大势所趋.
STEM教育和教育技术(educational technology)均为top10高频关键词.STEM是一种新型教育模式,也是受到世界公认和欢迎的人才培养方案. “STEM”的4个字母分别指代科学(science)、技术(technology)、工程(engineering)和数学(mathematics)这4个类别,强调要将4类学科内容有机组合成为整体,培养学生的实践能力和创新精神. 这4个领域和AI均有着深刻的联系,不仅是让学生接受AI相关内容的学习,更是运用AI技术于教学、管理、评价等各方面.
交叉学科研究也是投资项目中非常热门的关键词. 由于大学学科的专精性质,跨学科研究给人类研究人员带来了巨大的研究挑战,包括学科之间的认知分歧、评价机制的差异等.AI的“强人工跨学科性”,以其强大的学习速度和整合能力,在跨学科领域研究中大显身手. 如在数据集偏差透明度、模型决策的可解释性、评估方法和监管等方向上,仍然需要继续发展改进.
作为信息门类的学科,AI在计算机科学和其他信息相关领域的应用非常广泛. 在网络基础设施(cyberinfrastructure)领域,AI算法能够加速数据处理,发现隐藏在海量数据中的模式和趋势,优化网络流量;在边缘计算(edge computing)上,应用实时数据处理,进行智能感知和识别,能够优化管理和决策等;在网络安全(cybersecurity)方面,AI算法能够检测异常行为,实时分析威胁,并及早发现和阻止;AI算法为高性能计算(high performance computing, HPC)提供新思路,优化系统计算能力,对于HPC的应用有着深远的影响.
AI因其强大的预测能力和分析能力,在许多其他领域中也有巨大的潜力. 增材制造(additive manufacturing)作为新兴的制造技术,和AI的结合促进制造业生产流程的变革. 多信使天体物理学(multi-messenger astrophysics)中,AI根据引力、弱力、强力等天体物理宇宙的信息,尝试归纳和预测未知天体物理的相关线索. 又例如材料基因组计划(materials genome initiative, MGI),利用算法解码材料的不同组成成分和性能的对应关系,预测新材料的合成,改变传统材料的发展方式.
综上,可以看出,AI领域未来的发展,将会主要聚焦于AI在科学研究方面和民生方面的应用,如何产出能够适应愈发广泛的应用场景的模型,将成为AI领域一段时间内的重要课题;同时,随着人们对AI模型的要求和期望逐渐升高,AI模型训练效率的提升也会成为AI领域在未来一段时间内的重要课题.
在未来的AI领域,数据和知识的双轮驱动配合越发得当,大模型的大数据驱动的基础上,添加专家系统、知识图谱等知识计算引擎,将大模型在垂直领域细化,并提高其泛化能力,能够专家化,协助研究人员完成科研问题,提高研究效率,给予科研人员启发与思考. 在功能增进上,大语言模型智能体在感知环境、记忆、规划等与人协同的部分也将持续完善发展.
引用格式
魏子舒, 韩越, 刘思浩, 张圣宇, 吴飞. 2021至2023年AI领域研究热点分析述评与展望[J]. 计算机研究与发展. DOI: 10.7544/issn1000-1239.202440063
Wei Zishu, Han Yue, Liu Sihao, Zhang Shengyu, Wu Fei. Lookahead Analysis and Discussion of Research Hotspots in Artificial Intelligence from 2021 to 2023[J]. Journal of Computer Research and Development. DOI: 10.7544/issn1000-1239.202440063
扫码可获取全文