节点嵌入Node Embedding


文章目录

  • 节点嵌入Node Embedding
  • 概述
  • 图表示学习 Graph Representation Learning
  • 节点嵌入Node Embedding
  • Setup
  • Embedding Nodes
  • Learning Node Embedding
  • 两个关键的组件--编码器与解码器
  • 浅层编码“Shallow Encoding”
  • 框架总结
  • 节点嵌入上的注意点


概述

回顾传统的图机器学习方法:给定一个输入图,提取节点、链接和图级特征,学习一个模型(SVM、神经网络等。)将特征映射到标签。

es节点掉线超时时间 es ingest节点_Graph

传统的图机器学习任务中,我们将大量时间花费在特征工程上,即手工设计节点(边、图)级别的特征

那么我们可以摆脱手工设计特征的束缚吗?答案或许是:图表示学习

图表示学习 Graph Representation Learning

图形表示学习减轻了每次进行特征工程的需要。

es节点掉线超时时间 es ingest节点_Graph_02

目标:高效的独立于任务的图形机器学习特征学习!

es节点掉线超时时间 es ingest节点_图嵌入_03

为什么要做嵌入Embedding

任务:将节点映射到嵌入空间。

  • 节点之间嵌入的相似性表明它们在网络中的相似性。例如:两个节点彼此靠近(由一条边连接)
  • 编码网络信息
  • 可能用于许多下游预测

es节点掉线超时时间 es ingest节点_图嵌入_04

节点嵌入的例子–扎卡里空手道俱乐部网络节点的2D嵌入:

es节点掉线超时时间 es ingest节点_es节点掉线超时时间_05

节点嵌入Node Embedding

Setup

我们假设我们有一个图es节点掉线超时时间 es ingest节点_图嵌入_06

  • es节点掉线超时时间 es ingest节点_es节点掉线超时时间_07是顶点集
  • es节点掉线超时时间 es ingest节点_机器学习_08是邻接矩阵(假设是二进制的)
  • 为简单起见:不使用节点特征或额外信息

es节点掉线超时时间 es ingest节点_es节点掉线超时时间_09

Embedding Nodes

我们的目标是对节点进行编码,以便嵌入空间中的相似性(例如点积)近似于图中的相似性。

es节点掉线超时时间 es ingest节点_Graph_10

注意保持相似性!

嵌入空间中两个节点的相似性可以用节点间的距离或者嵌入向量的内积表示。原始图(网络)结构中的节点间相似性需要我们自己去定义。而如何将原始空间的节点映射为一个向量,这一过程es节点掉线超时时间 es ingest节点_Graph_11也是我们需要定义的,这是本节课程的重点。

es节点掉线超时时间 es ingest节点_图嵌入_12

Learning Node Embedding

1.编码器从节点映射到嵌入

2.定义节点相似性函数(即原始网络中的相似性度量)

3.解码器DEC从嵌入映射到相似性分数

4.优化编码器的参数,以便:

es节点掉线超时时间 es ingest节点_编码器_13

两个关键的组件–编码器与解码器

Encoder编码器:将每个节点映射到一个低维向量

es节点掉线超时时间 es ingest节点_编码器_14

相似性函数:指定向量空间中的关系如何映射到原始网络中的关系。

es节点掉线超时时间 es ingest节点_Graph_15

浅层编码“Shallow Encoding”

最简单的编码方法:编码器只是一个嵌入查找。仅仅是在大矩阵中的查找。

我们的目标是学习矩阵es节点掉线超时时间 es ingest节点_编码器_16. 其每一列都是一个节点的嵌入。es节点掉线超时时间 es ingest节点_图嵌入_17指示向量,除了表示节点v的列中的1之外的所有0。

es节点掉线超时时间 es ingest节点_图嵌入_18

es节点掉线超时时间 es ingest节点_编码器_16的形象化表述:

es节点掉线超时时间 es ingest节点_机器学习_20

如果网络结构非常庞大,节点数很多,那么矩阵es节点掉线超时时间 es ingest节点_编码器_16就会非常大,这样我们学习的参数就会非常多,我们需要为每个节点学习一个d维度的嵌入。但是我们一旦得到了矩阵es节点掉线超时时间 es ingest节点_编码器_16,我们就会很轻松的得到它们,仅仅是在存储此内容的矩阵es节点掉线超时时间 es ingest节点_编码器_16中查找。

**“Shallow Encoding”**每个节点被分配一个唯一的嵌入向量(即,我们直接优化每个节点的嵌入)。有很多方法很多方法:``DeepWalknode2vec`.

框架总结

编码器+解码器框架:

  • 浅层编码器:嵌入查找
  • 要优化的参数:es节点掉线超时时间 es ingest节点_Graph_24包含所有节点es节点掉线超时时间 es ingest节点_图嵌入_25的节点嵌入es节点掉线超时时间 es ingest节点_编码器_26
  • 我们将在第六讲中介绍深度编码器(图神经网路).
  • 解码器:基于节点相似度。
  • 目标:最大化es节点掉线超时时间 es ingest节点_Graph_27 '相似的节点对es节点掉线超时时间 es ingest节点_机器学习_28

如何定义节点的相似性?

方法的关键选择是如何定义节点相似性。

如果两个节点是链接的,有公共邻居,有相似的“结构角色”?,那么是否应该有相似的嵌入?

我们后面将学习使用随机行走的节点相似性定义,以及如何为这种相似性度量优化嵌入。

节点嵌入上的注意点

这是一种无监督/自我监督的学习节点嵌入的方式

  • 我们没有使用节点标签
  • 我们没有利用节点特征
  • 目标是直接估计节点的一组坐标(即嵌入),以便保留网络结构的某些方面(由DEC捕获)。

这些嵌入独立于任务

  • 他们没有接受过特定任务的训练,但可以用于任何任务