举个栗子:
有两个网络F和G,其中y=F(x), z=G(y), 假设现在想通过z.bachward()实现z对y的求导,但是又不想y对x求导
那么怎么做呢?
# 第一种
y=F(x)
z=G(y.detach())
z.backward()
# 第二种
y=F(x)
y_ = y.detach_()
z=G(y_)
z.backward()
detach():返回一个新的从当前图中分离的Variable,且返回的Variable永远不会需要梯度,返回的Variable和被detach的Variable指向同一个tensor
detach_():把Variable作为叶子结点,从创建它的图中剥离出来
上面的栗子用两种方法都可以,但是如果y也想对F网络进行BP呢?就只能用第一种方法了,因为第二种已经把网络的输出y当作叶子结点从模型中detach(分离)出去了(˶‾᷄ ⁻̫ ‾᷅˵)
总之,用第一种总没错啦(>^ω^<)就目前的水平来看~