Stochastic pooling随机池化代码实现

本文介绍了StochasticPooling,一种由ICLR2013提出的随机池化技术,它通过概率选取特征图元素增强泛化能力。讲解了其原理和在PyTorch中的实现,展示了如何用代码实现随机池化层及其在模型中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Stochastic Pooling(随机池化)

随机池化Stochastic Pooling是Zeiler等人于ICLR2013提出的一种池化操作。随机池化的计算过程如下

  • 先将方格中的元素同时除以它们的和sum,得到概率阵
  • 按照概率随机选中方格
  • pooling得到的值就是方格位置的值

 

随机池化只需对特征图中的元素按照其概率值大小随机选择,即元素值大的被选中的概率也大,而不像max-pooling那样,永远只取那个最大值元素,这使得随机池化具有更强的泛化能力

import torch
import torch.nn as nn
from torch.autograd import Variable

class StochasticPool2DLayer(nn.Module):
    def __init__(self, pool_size=2, maxpool=True, training=False, grid_size=None, **kwargs):
        super(StochasticPool2DLayer, self).__init__(**kwargs)
        self.rng = torch.cuda.manual_seed_all(123) # this changed in Pytorch for working
        self.pool_size = pool_size
        self.maxpool_flag = maxpool
        self.training = training
        if grid_size:
            self.grid_size = grid_size
        else:
            self.grid_size = pool_size

        self.Maxpool = torch.nn.MaxPool2d(kernel_size=self.pool_size, stride=1)
        self.Avgpool = torch.nn.AvgPool2d(kernel_size=self.pool_size,
                                          stride=self.pool_size,
                                          padding=self.pool_size//2,)
        self.padding = nn.ConstantPad2d((0,1,0,1),0)

    def forward(self, x, training=False, **kwargs):
        if self.maxpool_flag:
            x = self.Maxpool(x)
            x = self.padding(x)
        if not self.training:
            # print(x.size())
            x = self.Avgpool(x)
            return x
            # return x[:, :, ::self.pool_size, ::self.pool_size]       
        else:
            w, h = x.data.shape[2:]
            n_w, n_h = w//self.grid_size, h//self.grid_size
            n_sample_per_grid = self.grid_size//self.pool_size
            # print('===========================')
            idx_w = []
            idx_h = []
            if w>2 and h>2:
                for i in range(n_w):
                    offset = self.grid_size * i
                    if i < n_w - 1:
                        this_n = self.grid_size
                    else:
                        this_n = x.data.shape[2] - offset
                    
                    this_idx, _ = torch.sort(torch.randperm(this_n)[:n_sample_per_grid])
                    idx_w.append(offset + this_idx)
                #     print(i,offset,this_n)
                #     print(this_idx)
                # print('***************************************')
                # print('***************************************')
                # print('***************************************')
                # print('***************************************')
                # print('***************************************')
                # print(idx_w)
                # print('///////////////////////////////////////')
                for i in range(n_h):
                    offset = self.grid_size * i
                    if i < n_h - 1:
                        this_n = self.grid_size
                    else:
                        this_n = x.data.shape[3] - offset
                    this_idx, _ = torch.sort(torch.randperm(this_n)[:n_sample_per_grid])

                    idx_h.append(offset + this_idx)
                idx_w = torch.cat(idx_w, dim=0)
                idx_h = torch.cat(idx_h, dim=0)
            else:
                idx_w = torch.LongTensor([0])
                idx_h = torch.LongTensor([0])

            output = x[:, :, idx_w.cuda()][:, :, :, idx_h.cuda()]
            return output

### 不同类型的池化方法 #### 最大池化 (Max Pooling) 最大池化是一种常用的降采样技术,在神经网络中用于减少特征图的空间尺寸。该过程通过选取窗口内的最大值作为输出,从而保留最显著的特征[^1]。 对于输入矩阵 `X` 和大小为 `(k, k)` 的滑动窗口,最大池化的计算方式如下: ```python import numpy as np def max_pool(X, kernel_size=2): h_out = X.shape[0] // kernel_size w_out = X.shape[1] // kernel_size result = np.zeros((h_out, w_out)) for i in range(h_out): for j in range(w_out): patch = X[i*kernel_size:(i+1)*kernel_size, j*kernel_size:(j+1)*kernel_size] result[i,j] = np.max(patch) return result ``` 这种池化方式有助于增强模型对图像平移和其他几何变换的鲁棒性,常应用于计算机视觉领域中的卷积神经网络(CNN)。 #### 平均池化 (Average Pooling) 平均池化则是取定区域内所有数值的算术平均数来表示这一区域的信息。相比最大池化而言,这种方法可以更好地保持原始数据的整体分布特性。 实现代码如下所示: ```python def avg_pool(X, kernel_size=2): h_out = X.shape[0] // kernel_size w_out = X.shape[1] // kernel_size result = np.zeros((h_out, w_out)) for i in range(h_out): for j in range(w_out): patch = X[i*kernel_size:(i+1)*kernel_size, j*kernel_size:(j+1)*kernel_size] result[i,j] = np.mean(patch) return result ``` 在某些情况下,当希望得到更柔和和平滑的结果时会选择此法;另外,在防止过拟合方面也有一定作用。 #### 随机池化 (Stochastic Pooling) 随机池化不同于上述两种确定性的策略,而是基于概率选择某个特定位置上的像素点作为代表。具体来说,给定一个局部感受野内各元素的概率分布p(x),按照这个分布抽样决定哪个单元格被选为代表者。 这种方式增加了训练过程中样本多样性,理论上能够提高泛化能力。然而由于其引入了额外不确定性因素,在实际应用中并不常见。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值