团队|数据挖掘领域大师俞士纶团队新作：最新图自监督学习综述_领域|监督|研究|俞士纶|任务

机器之心专栏
机器之心编辑部

图灵奖得主 Yoshua Bengio 和 Yann LeCun 在 2020 年的 ICLR 大会上指出，自监督学习有望使 AI 产生类人的推理能力。该观点为未来 AI 领域指明了新的研究方向——自监督学习是一种不再依赖标注，而是通过揭示数据各部分之间关系，从数据中生成标签的新学习范式。

近年来，自监督学习逐渐广泛应用于计算机视觉、自然语言处理等领域。随着该技术的蓬勃发展，自监督学习在图机器学习和图神经网络上的应用也逐渐广泛起来，图自监督学习成为了图深度学习领域的新发展趋势。
本文是来自澳大利亚蒙纳士大学（Monash University）图机器学习团队联合中科院、联邦大学，以及数据科学权威 Philip S. Yu 对图自监督学习领域的最新综述，从研究背景、学习框架、方法分类、研究资源、实际应用、未来的研究方向的方面，为图自监督学习领域描绘出一幅宏伟而全面的蓝图。

文章图片

全文链接：https://arxiv.org/pdf/2103.00111.pdf
1. 绪论
近年来，图深度学习广泛应用于电子商务、交通流量预测、化学分子研究和知识库等领域。然而，大多数工作都关注在（半）监督学习的学习模式中，这种学习模式主要依赖标签信息对模型进行训练，导致了深度学习模型获取标签成本高、泛化能力能力不佳、鲁棒性差等局限性。
自监督学习是一种减轻对标签数据的依赖，从而解决上述问题的新手段。具体地，自监督学习通过解决一系列辅助任务（称为 pretext task ，代理任务）来进行模型的学习，这样监督信号可以从数据中自动获取，而无需人工标注的标签来对模型进行监督训练。
自监督学习目前已经被广泛应用于计算机视觉（CV）和自然语言处理（NLP）等领域，具体技术包括词嵌入、大规模语言预训练模型、图像的对比学习等。然而，与 CV/NLP 领域不同，由于图数据处于不规则的非欧几里得空间，其具有独特的特点，包括：1）需要同时考虑特征信息与不规则的拓扑结构信息；2）由于图结构的存在，数据样本（节点）间往往存在依赖关系。因此，图领域的自监督学习（graph self-supervised learning）无法直接迁移 CV/NLP 领域的代理任务设计，从而为图自监督学习带来了独有的概念定义和分类方法。
不同领域的自监督代理任务对比

文章图片

图自监督学习的历史最早可追溯到经典的图嵌入方法，包括 DeepWalk、Line 等，而经典的图自编码器（GAE）模型也可被视为一种图自监督学习。自 2019 年以来，一系列新工作席卷了图自监督学习领域，涉及到的技术包括但不限于对比学习、图性质预测、图生成学习等。然而，目前缺少系统性的分类法对这些方法进行归类，同时该技术相关的框架与应用也没有得到规范化的统计与调查。