论文精讲 | 基于昇思的流场景下知识图谱表示学习框架

作者:李锐锋

论文标题

StreamE: Lightweight Updates of Representations for Temporal Knowledge Graphs in Streaming Scenarios

论文来源

SIGIR 2023

论文链接

https://dl.acm.org/doi/10.1145/3539618.3591772

代码链接

https://github.com/zjs123/StreamE_MindSpore

昇思MindSpore作为一个开源的AI框架,为产学研和开发人员带来端边云全场景协同、极简开发、极致性能,超大规模AI预训练、极简开发、安全可信的体验,2020.3.28开源来已超过5百万的下载量,昇思MindSpore已支持数百+AI顶会论文,走入Top100+高校教学,通过HMS在5000+App上商用,拥有数量众多的开发者,在AI计算中心,金融、智能制造、金融、云、无线、数通、能源、消费者1+8+N、智能汽车等端边云车全场景逐步广泛应用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、套件、模型众智、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

在科技界、学术界和工业界对昇思MindSpore的广泛支持下,基于昇思MindSpore的AI论文2023年在所有AI框架中占比7%,连续两年进入全球第二,感谢CAAI和各位高校老师支持,我们一起继续努力做好AI科研创新。昇思MindSpore社区支持顶级会议论文研究,持续构建原创AI成果。我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟昇思MindSpore合作,一起推动原创AI研究,昇思MindSpore社区会持续支撑好AI创新和AI应用,本文是昇思MindSpore AI顶会论文系列第15篇,我选择了来自电子科技大学计算机学院邵杰老师团队的一篇论文解读,感谢各位专家教授同学的投稿。本文已上传到知乎,点击阅读原文即可查看。

昇思MindSpore旨在实现易开发、高效执行、全场景覆盖三大目标。通过使用体验,昇思MindSpore这一深度学习框架的发展速度飞快,它的各类API的设计都在朝着更合理、更完整、更强大的方向不断优化。此外,昇思不断涌现的各类开发工具也在辅助这一生态圈营造更加便捷强大的开发手段,例如MindSpore Insight,它可以将模型架构以图的形式呈现出来,也可以动态监控模型运行时各个指标和参数的变化,使开发过程更加方便。

01

研究背景

时序知识图谱嵌入方法旨在保留时序知识图谱的时序性的基础上学习其中元素的向量表示。尽管现有的工作能够将时序知识图谱表示为低维向量,然而这些工作都假设不会有新知识再被添加到时序知识图谱中,这显然是不合理的。现实世界中的知识是不断更新的,因而会有新的知识不断被添加进知识图谱,这种场景被称作流场景。现有工作在被应用到流场景时主要会面临以下三个问题:

(1)首先,新的实体会随着知识的更新不断累积到知识图谱中,现有的工作都是直接学习每个实体固定的嵌入表示,因此它们无法为新出现的实体生成嵌入表示。

(2)现实世界中的各种事件时时刻刻都在发生,这导致知识的更新会非常频繁,现有的工作需要在每个时刻从头重新生成当前时刻的嵌入表示,这导致它们难以应用在需要快速响应的现实领域中,如危机预警系统。

(3)现有的工作都只能获得具有相关知识时间戳下的实体嵌入表示。然而,现实领域中的需求是随时生成的,现有的工作将会一直返回同样的嵌入表示直到下一次知识更新出现,从而导致模型在这段时间内一直做出相同的响应,这显然是不合理的。

因此,尽管现有的工作取得了一些成功,但它们都不能应用到流场景上,而流场景却在现实世界中非常常见(如推荐系统,危机预警系统等)。

02

团队介绍

论文第一作者张嘉昇是电子科技大学计算机学院博士二年级学生,研究方向为动态图表示学习,时序知识图谱,以及时空数据挖掘。截至目前共发表5篇,其中CCF A类会议论文2篇,CCF B类,C类会议论文各1篇,中科院一区期刊论文1篇,并申请国家发明专利3项,软件著作权2项。主持完成四川省科技厅创新创业苗子工程重点项目“时序知识引导的知识图谱表示学习模型研究及应用”,并入选滴滴-未来精英校企联合人才培养项目。多次获电子科技大学学业奖学金以及“优秀研究生”,“科技创新先进个人”称号。

论文指导老师邵杰是电子科技大学教授、博士生导师,发表高水平学术论文百余篇(包括IEEE TKDE、IEEE TNNLS、IEEE TCYB、IEEE TMM、IEEE TGRS、IEEE THMS、IEEE TCSVT、ACM TOIS和ACM TOMM等期刊以及ACM MM、IEEE ICDE、VLDB、IJCAI和AAAI等会议)。主持国家自然科学基金面上项目2项和四川省重点研发项目1项,作为合作单位负责人承担国家自然科学基金重点项目1项,并担任中国计算机学会大数据领域推荐国际会议APWeb-WAIM 2019的程序委员会主席。获得2021年四川省科技进步二等奖。

论文作者所在的电子科技大学未来媒体研究中心在多模态知识图谱、时序知识图谱和知识图谱构建、推理和有应用等方向上均开展了一定研究。在研多项相关省部级,国家级项目。

03

论文简介

图片

本文提出了一种轻量级嵌入表示框架(StreamE)用于解决以往的时序知识图谱嵌入方法不能应用于流场景的问题。我们认为现有工作难以适应流场景的主要原因在于他们将嵌入生成过程与预测过程高度耦合,这导致其难以高效地生成任意时刻的嵌入表示。因此,我们通过解耦上述两个过程来实现流场景下嵌入表示的轻量级更新。

具体来说,我们将实体嵌入表示作为外部存储模块用于保留历史语义,并将生成嵌入表示的过程解耦为更新函数和读取函数。在更新函数中,我们的框架监听新到来的知识,并基于新到来的知识增量式地更新已存储的嵌入表示;在读取函数中,我们的框架监听用户的查询需求,并基于嵌入表示轨迹预测来生成查询时刻下的嵌入表示,从而响应查询需求。

为了准确更新实体表示,我们同时考虑了新知识的参与实体之间的直接影响,以及新知识对于过去的相关知识所涉及的实体产生的传播影响。对于直接影响,受启发于消息传递机制,我们认为产生知识的实体之间也会互相传播信息,同时关系的语义体现了实体之间的关联性,因此我们希望可以同时利用实体和关系进行消息传递机制来建模直接影响。对于传播影响,由于路径被广泛用于建模实体之间的高阶相关性,我们认为新知识与过去的相关实体组成的路径能够反映它们之间的关联。因此我们基于路径来建模传播影响。最后由于门控机制可以自适应地选取信息进行更新,我们利用它来自适应地选择直接影响和传播影响中的信息用以更新实体的嵌入表示。

为了准确模拟实体语义的演化轨迹,我们考虑到了两个方面。首先大多数实体的语义具有周期性特点,如奥运会每四年举行一次,而欧洲杯每两年举行一次,考虑实体的周期性语义变化有助于更好地预测未来可能发生的知识。其次我们发现一个实体只会与整个实体集合中的一部分实体产生知识,而这些实体就天然地具有强相关性。一个实体未来的语义轨迹应当适应于其相关实体的语义变化,从而维持这种相关性。

04

实验结果

我们在四个基准数据集上验证了基于昇思MindSpore实现的StreamE框架在归纳式未来链接预测任务上的有效性,如下图所示,我们的框架在所有数据集上都表现出了相比现有模型更优的性能。

图片

同时,我们验证了我们所提出的框架相比于现有模型在嵌入表示生成效率上的优势。如下图所示,我们的框架能够在查询数上升时保持消耗时间亚线性增长,显著地比现有模型更为高效。

图片

05

总结与展望

在这篇文章中,我们首次研究了时序知识图谱在流场景下的技术挑战,并提出了一个轻量级框架StreamE用于在流场景下更新嵌入表示。我们使用昇思MindSpore框架实现了StreamE框架并通过大量实验证明了其在效率和准确性上的优势。昇思MindSpore作为一款国产深度学习框架提供了大量非常有用的算子,极大简化了框架实现过程,同时它也在推理效率上展现出了很大的优势。昇思MindSpore社区非常活跃,其他使用者和华为开发者的建议为我们的框架实现提供了巨大帮助,我们相信在这样一个活跃专业的社区引导下,昇思MindSpore会变得越来越完善。

90后程序员开发视频搬运软件、不到一年获利超 700 万,结局很刑! 谷歌证实裁员,涉及 Flutter、Dart 和 Python 团队 中国码农的“35岁魔咒” Xshell 8 开启 Beta 公测:支持 RDP 协议、可远程连接 Windows 10/11 ​MySQL 的第一个长期支持版 8.4 GA 开源日报 | 微软挤兑Chrome;阳痿中年的福报玩具;神秘AI能力太强被疑GPT-4.5;通义千问3个月开源8模型 Arc Browser for Windows 1.0 正式 GA Windows 10 市场份额达 70%,Windows 11 持续下滑 GitHub 发布 AI 原生开发工具 GitHub Copilot Workspace JAVA 下唯一一款搞定 OLTP+OLAP 的强类型查询这就是最好用的 ORM 相见恨晚
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4736317/blog/11082896