爱吱声

标题: 继续请教问题:关于 Pytorch 的 Autograd [打印本页]

作者: 雷达 时间: 2023-2-14 13:09
标题: 继续请教问题:关于 Pytorch 的 Autograd
本帖最后由雷达于 2023-2-14 13:12 编辑

为预防老年痴呆，时不时学点新东东玩一玩。
Pytorch 下面的代码做最简单的一元线性回归：
----------------------------------------------
import torch
import numpy as np
import matplotlib.pyplot as plt
import random

x = torch.tensor(np.arange(1,100,1))
y = (x*27+15+random.randint(-2,3)).reshape(-1)  # y=wx+b, 真实的w0 =27, b0=15

w = torch.tensor(0.,requires_grad=True)  #设置随机初始 w,b
b = torch.tensor(0.,requires_grad=True)

epochs = 100

losses = []
for i in range(epochs):
  y_pred = (x*w+b) # 预测
  y_pred.reshape(-1)

  loss = torch.square(y_pred - y).mean() #计算 loss
  losses.append(loss)

  loss.backward() # autograd
  with torch.no_grad():
w  -= w.grad*0.0001 # 回归 w
b  -= b.grad*0.0001    # 回归 b
  w.grad.zero_()
  b.grad.zero_()

print(w.item(),b.item()) #结果

Output： 27.26387596130371  0.4974517822265625
----------------------------------------------
最后的结果，w可以回到 w0 = 27 附近，b却回不去 b0=15。两处红字，损失函数是矢量计算后的均值，感觉 b 的回归表达有问题。
高手们帮看看是神马原因？

作者: 老福 时间: 2023-2-14 19:23
本帖最后由老福于 2023-2-14 21:58 编辑

没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
-------
不好意思，再看一遍，好像你在自算回归而不是用现成的工具直接出结果，上面的评论只有一点用，就是确认是不是算法有问题。
-------
算法诊断部分，建议把循环次数改为1000, 再看看loss是不是收敛。有点怀疑你循环次数不够，因为你起点是0, 步长很小。只是直观建议。

作者: 雷达 时间: 2023-2-14 21:52

老福发表于 2023-2-14 19:23. W2 ^' a- O& }& O+ Q& c- Y5 l
没有用过pytorch，但你把随机噪音部分改成均值为0的正态分布再试试看是不是符合预期？
/ p/ Z' J* i7 y( H-------, Q1 N L1 u) g' g& |7 d
不好意思， ...

谢谢，算法应该没问题，就是最简单的线性回归。
我特意没有用现成的工具，就是想从最基本的地方深入理解一下。

作者: 老福 时间: 2023-2-14 22:00
本帖最后由老福于 2023-2-14 22:02 编辑

雷达发表于 2023-2-14 21:52# G5 u a* w _( `0 e' l1 P
谢谢，算法应该没问题，就是最简单的线性回归。
, _2 q9 w) p O6 Y) L- J我特意没有用现成的工具，就是想从最基本的地方深入理解 ...

刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。

或者把b但的起点改为1试试。

作者: 雷达 时间: 2023-2-15 00:25
本帖最后由雷达于 2023-2-15 00:31 编辑

老福发表于 2023-2-14 22:008 [3 }# e( S, B$ ~6 V$ G4 q
刚才更新了一下，建议增加循环次数或调一下步长，查一下loss曲线。7 m- ]/ Y( T |3 }3 R$ l8 }

+ m, [" c3 V# a* ?% e或者把b但的起点改为1试试。 ...

你是对的。
去掉了随机部分
#y = (x*27+15+random.randint(-2,3)).reshape(-1)
y = (x*27+15).reshape(-1)

循环次数加成10倍，就看到 b 收敛了
w , b
27.002620697021484 14.826167106628418

和 b 的起始位置无关，但 labeled data 用 y = (x*27+15+random.randint(-2,3)).reshape(-1) ，收敛就很慢。

欢迎光临爱吱声 (http://aswetalk.net/bbs/)