神经网络学习：从数据到梯度下降-CSDN博客

本文链接：https://blog.csdn.net/TigaFeng/article/details/109242611

该篇博客介绍了神经网络的学习过程，包括从数据中学习权重参数，详细阐述了mini-batch学习的原理和实际操作，以及在大量数据中如何通过梯度法寻找最优参数。此外，还讨论了基于测试数据的评价标准，如epoch的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4.1 从数据中学习

从数据中学习，是指可以由数据自动决定权重参数的值。

4.2.3 mini-batch学习

为什么使用mini-batch：
当数据很多很多时，一次性计算全部数据的损失函数是很漫长且不现实的。因此，从中挑选出一部分，作为全部数据的“近似”。

从代码中看具体流程：

1. 假设总共有10000个数据，batch_size设置为500，总共训练80伦
1. 训练中的每一轮，从10000个数据中随机挑选出500数据，用于训练

4.4 梯度

使用定义计算梯度。

def numerical_gradient(f, x):
	h = 1e-4
	grad = np.zeros_like(x)
	
	for idx in range(x.size):
		tmp_val = x[idx]
		# f(x+h)
		x[idx] = tmp_val + h
		fxh1 = f(x)
		
		#f(x-h)
		x[idx] = tmp_val - h
		fxh2 = f(x)	
		
		grad[idx] = (fxh1 - fxh2) / (2*h)
		x[idx] = tmp_val
	return grad

4.4.1 梯度法

机器学习的主要任务是在学习时寻找最优参数。
使用梯度来寻找函数最小值的方法就是梯度法。
梯度表示的是各点处函数值减小最多的方向。

def gradient_descent(f, init_x, lr=0.01, step_num = 100):
	x = init_x 
	
	for i in range(step_num):
		grad = numerical_gradient(f, x)
		x -= lr * grad
	return x