深度学习｜模型训练：手写 SimpleNet

置顶

三余知行

已于 2024-09-19 09:49:36 修改

阅读量2.7k

点赞数 62

CC 4.0 BY-SA版权

分类专栏：「数智通识」「机器学习」文章标签：深度学习人工智能 AI SimpleNet 模型训练模型推理梯度下降法

于 2024-09-12 12:25:56 首次发布

本文链接：https://blog.csdn.net/ChaoMing_H/article/details/142172130

文章目录

引言

从前文「深度学习｜梯度下降法：误差最小化的权重参数」，我们知道了神经网络的学习就是“找寻使损失函数的值尽可能小的权重参数”的过程，又掌握了找寻的方法（梯度下降法）。凭借这些信息，我们可以以纯手写 Python 代码的方式，实现一个简单的神经网络 SimpleNet，使用这个 SimpleNet 来演示神经网络的整个训练过程，并验证它的推理效果。

在这里插入图片描述

SimpleNet 网络结构

我们依旧以手写数字识别为任务目标，实现一个可用于该任务的形如图 1 所示的 SimpleNet，亲身体验一下神经网络学会识别这些图片所代表数字的数学过程。

在这里插入图片描述

如图 1 所示，SimpleNet 是一个两层神经网络，它的输入层有 784 个神经元，分别代表 28 $\times$ 28 个像素值，第 1 层隐层有 50 个功能神经元，输出层有 10 个神经元，分别代表预测结果为 0 ~ 9 的概率。

从前文对神经网络的介绍中我们知道，要实现一个神经网络的基本功能，除了要确定神经网络的结构，我们还需要确定它每一层所使用的激活函数，以及在进行梯度下降法优化权重参数时所使用的损失函数以及梯度函数。

激活函数

SimpleNet 的第 1 层隐层我们使用 Sigmoid 函数作为激活函数，Sigmoid 函数是一个 S 型函数，它将输入值映射到 0 到 1 之间，有助于神经网络的非线性表达。输出层我们使用 Softmax 函数作为激活函数，Softmax 函数将输入值映射成 0 到 1 之间的概率值，它输出值归一化，使得输出值之和为 1，用于此类多分类任务正好合适：

import numpy as np

def sigmoid(x):
    """S 型函数"""
    return 1 / (1 + np.exp(-x))

def softmax(x):
    """归一化指数函数"""
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

    x = x - np.max(x)  # 溢出对策
    return np.exp(x) / np.sum(np.exp(x))