近日,浙江大学上海高等研究院计算+金融创新实验室公开发布了繁星星图数据集和繁星星图时序图查询语言扩展。计算+金融创新实验室围绕大规模时序关联图,在时序图数据集、实时计算、推理框架、查询语言、开放平台等多领域开展研究任务,取得多项研究成果。上述发布,为大规模时序图领域的研究提供了重要基础,对推动该领域的研究和应用发展具有巨大重大的意义。
繁星星图数据集
浙江大学上海高等研究院计算+金融创新实验室与浙江大学计算机科学与技术学院联合发布的繁星星图数据集是目前节点、边规模最大,模式最为复杂的超大规模时序关联图数据集,其中的虚拟币交易数据集包含以太坊、币安链、波场链、Tomo链四个主要的智能合约平台,覆盖以太币、泰达币、比特币等多种虚拟货币,节点规模达到亿级,边规模达到十亿级别,时间跨度大于八年(从2015年6月至今),实时数据采集和解析延时小于30秒,蕴含丰富的图信息和图模式。
该数据集具备数据规模大、时间跨度长、实时更新快、图信息丰富的特性,为面向超大规模时序图的异常检测、模式识别等人工智能理论应用研究提供了新的选择,随着央行数字货币的逐步推广和普及,对加密货币行业安全性研究也具有重大意义。
研究者可以通过浙江大学上海高等研究院繁星星图平台Starry Graph使用该数据集(http://www.starrygraph.com.cn/#/dataSet),并基于该数据集进行时序图的分析和建模。
繁星星图时序图查询语言扩展
浙江大学上海高等研究院计算+金融创新实验室与浙江大学计算机科学与技术学院、浙江大学城市学院和创邻科技联合发布了繁星星图时序图查询语言扩展,并公布了语法设计的详细文档。
繁星星图时序查询语言扩展是首个完整的时序属性图查询语言。该设计主要包含一种基于有效时间区间的时序属性图数据模型和基于Cypher的时序图查询语言,在时序数据复杂场景中,增强了时序数据操作的便利性,并有效保证了时间约束的存在。
时序图查询结合了时间序列和图数据模型的特点,不仅反映了实体(节点)之间的关系(边),而且还将这些关系或者节点的属性随时间的变化一并进行记录。利用所提出的基于Cypher的时序扩展图查询语法设计,可以在保证时序数据依赖地同时,便捷、高效地存储和查询关于实体之间关系随时间的变化的信息,或者实体自身属性随时间变化的信息。
在社交网络、金融市场、网络安全、供应链等场景中存在着众多与时序相关的分析、预测任务,该时序属性图查询语法将为复杂的时序数据处理与分析提供支持,同时也将为时序图相关研究领域带来新的启发。
目前,繁星时序图查询语言已被创邻科技纳入到其分布式图数据库galaxybase进行扩展开发。届时,研究者可通过浙江大学上海高等研究院繁星星图平台Starry Graph进行查询体验和应用开发。