自己整理的模型训练记录模板 搭配log和tensorborad

先上模板

模板

0.执行命令
1.训练参数

(不同地方 注释清楚)

2.训练结果
3.出现的问题
4.测试的参数
5.测试结果
6.出现的问题和需要改进的点

因为要训练的次数太多,所以简单做了一个markdown来记录平时的数据,知道每次修改了什,对应效果是什么,存在哪些问题, 下次怎么样修改等等。

下面是我开始学习时候的一次实例,有大神的话也帮助看一下是什么问题。

我的简单训练记录实例

2024-10-31-13-12-39

0.执行命令

nohup python train.py --epoch 100 --batch-size 48> out.log &

1.训练参数

(不同地方 注释清楚)

name: LiTS_Unet_lym
arch: Unet
dataset: LiTS==(去掉了10%病人做测试集)==
input_channels: 3
image_ext: npy
mask_ext: npy
aug: False
loss: BCEDiceLoss
epochs: 100(实际跑了81epoch)
early_stop: 30
batch_size: 48
optimizer: Adam(自适应矩估计)
lr: 0.0003
momentum: 0.9
weight_decay: 0.0001
nesterov: False
deepsupervision: False

2.训练结果

log记录:
在这里插入图片描述

可视化训练数据tensorboard

在这里插入图片描述

3.出现的问题

和上次出现差不多问题 这次出现在接近40 Epoch 左右 验证集DICE参数会骤降为近0,loss 也会下降一截,而且逐渐震荡
怀疑是优化器的问题,可以把学习率搞出来看看

4.测试的参数

对epoch39-0.9762-0.9133_model.pth 模型进行测试

保存模型是看loss的 loss 甚至可以训练到0.15左右 (200轮)
参数与训练一致

5.测试结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

IoU: 0.8757 Dice_1: 0.9275 Dice_2: 0.2297 (训练集上表现很好(验证集都0.9了),但在测试集上却表现很差)

是不是过拟合 看训练误差和验证误差 如果是过拟合应该是训练loss 下降 验证loss 上升

6.出现的问题和需要改进的点

肝脏蛮好 肿瘤不好
怀疑是优化器的问题,换一个优化器,可以把学习率搞出来看看

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值