基于mxnet的Regression问题Kaggle比赛代码框架

一、概述

书中3.16节扩展一下可以作为kaggle比赛的框架,这个赛题的名字是House Prices: Advanced Regression Techniques,是一个Regression问题。

二、Deeplearning的一般流程

结合李航《统计学习方法》中对机器学习流程的总结,分为data、model、strategy、algorithm、training、prediction

1、 Data

1.1、read data

# read data
train_data = pd.read_csv('./d2l-zh-1.1/data/kaggle_house_pred_train.csv')
test_data = pd.read_csv('./d2l-zh-1.1/data/kaggle_house_pred_test.csv')
# print(train_data.shape)
# print(train_data.iloc[0:4, [0, 1, 2, -1, -2, -3]])

1.2、preprocess data

# standardization to numeric type
all_features = pd.concat((train_data.iloc[:, 1:-1], test_data.iloc[:, 1:]))
numeric_features = all_features.dtypes[all_features.dtypes != 'object'].index
all_features[numeric_features] = all_features[numeric_features].apply(
    lambda x: (x - x.mean()) / x.std())
# 标准化后,每个特征的均值变为0,所以可以直接用0来替换缺失值
all_features[numeric_features] = all_features[numeric_features].fillna(0)

# convert discrete value to dummy variable
all_features = pd.get_dummies(all_features, dummy_na=True)

# get train and test data
n_train = train_data.shape[0]
train_features = nd.array(all_features[
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值