import xgboost as xgb dtrain = xgb.DMatrix(chara_ori, label=se_btexn, enable_categorical=True) #DMatrix:XGBoost专用的优化数据格式,enable_categorical=True:启用原生类别特征支持 params = { 'objective': 'reg:squarederror', ## 回归任务目标函数 'max_depth': 8, # 树的最大深度 'eta': 0.005, # 学习率 'subsample': 0.6, # 样本采样比例 #'eval_metric': 'rsquared' } def r2_eval(preds, dtrain): labels = dtrain.get_label() r2 = r2_score(labels, preds) return 'r2', r2 cv_results = xgb.cv(params, dtrain, num_boost_round=800, nfold=5 , custom_metric=r2_eval # 添加自定义评估函数 ,maximize=True, # R²需要最大化 as_pandas=True, # 确保返回DataFrame格式 seed=12 # 设置随机种子 ) best_r2 = cv_results['test-r2-mean'].iloc[-1] print(f"最佳R²分数:{best_r2:.4f}") 代码运行后如何对xgb进行超参数调参

时间: 2025-03-21 18:12:16 浏览: 44
<think>好的,用户现在想了解如何对XGBoost进行超参数调参,特别是在他们的代码已经能够运行的情况下。他们之前遇到了XGBoostError,关于r2指标的问题,现在已经解决了,现在需要进一步的优化。 首先,我需要回顾用户当前的代码结构。他们使用的是xgboost的DMatrix格式,设置了一些基本参数,包括回归目标函数、最大深度、学习率、子样本比例,并且自定义了R²评估函数。然后通过交叉验证来获取最佳R²分数。现在用户想知道如何进行超参数调优。 用户可能已经知道基本的参数设置,但需要更系统的方法来调整参数以提高模型性能。我需要考虑常见的调参方法,比如网格搜索、随机搜索、贝叶斯优化等,同时结合XGBoost的特点给出建议。 接下来,我需要分析用户代码中已有的参数,看看哪些参数已经被设置,哪些可能需要调整。例如,用户已经设置了max_depth、eta、subsample,但可能还有其他重要参数如gamma、lambda、alpha、colsample_bytree等需要调整。 然后,我应该考虑用户的场景。他们可能是在做一个回归任务,并且使用交叉验证来评估模型。因此,调参过程中需要保持交叉验证的稳定性,同时确保参数组合的有效性。 用户可能的需求是希望得到一个系统性的调参步骤,包括哪些参数需要调整,如何选择调参方法,以及如何验证结果。同时,他们可能需要代码示例来具体实施这些步骤。 需要确保回答结构清晰,分步骤讲解,并提供具体的参数建议和示例代码。另外,要提醒用户注意调参的顺序,比如先调整影响较大的参数,如学习率和树的数量,再调整树结构相关的参数,最后正则化参数。 还要提到调参工具的选择,比如使用GridSearchCV或RandomizedSearchCV,或者更高级的库如Optuna。针对用户当前的代码结构,可能需要调整以适应这些工具,比如将DMatrix转换为DataFrame以便与scikit-learn的接口兼容,或者继续使用原生接口。 另外,用户可能对如何评估调参效果感兴趣,比如观察验证集的R²分数变化,早停法的应用,以及避免过拟合的策略。 最后,需要总结调参的注意事项,比如参数之间的相互作用,计算资源的限制,多次实验的必要性,以及结合业务理解进行调整的重要性。</think>以下是针对XGBoost超参数调参的系统化解决方案,基于你提供的回归任务代码逐步展开: --- ### **一、调参核心思路** 1. **先粗调后精调**:先确定参数大致范围,再细化搜索 2. **优先级排序**: - 第1梯队:`eta`(学习率), `n_estimators`(树的数量) - 第2梯队:`max_depth`, `min_child_weight` - 第3梯队:`subsample`, `colsample_bytree` - 第4梯队:正则化参数(`gamma`, `lambda`, `alpha`) --- ### **二、具体调参步骤** #### **步骤1:基础参数优化** ```python params = { 'objective': 'reg:squarederror', 'eta': 0.005, # 初始学习率(后续可能需要调整) 'n_estimators': 800 # 对应你的num_boost_round } ``` #### **步骤2:树结构参数调优** ```python # 使用网格搜索示例 from sklearn.model_selection import GridSearchCV param_grid = { 'max_depth': [3, 5, 7, 9], # 从当前8开始向两侧扩展 'min_child_weight': [1, 3, 5] # 控制叶子节点样本权重 } model = xgb.XGBRegressor(**params) grid = GridSearchCV(model, param_grid, cv=5, scoring='r2') grid.fit(X, y) # 需将DMatrix转换为numpy数组 print(f"最佳参数:{grid.best_params_}") ``` #### **步骤3:采样参数优化** ```python param_grid = { 'subsample': [0.5, 0.6, 0.7, 0.8], # 行采样 'colsample_bytree': [0.6, 0.8, 1.0] # 列采样 } ``` #### **步骤4:正则化调优** ```python param_grid = { 'gamma': [0, 0.1, 0.3], # 节点分裂最小损失下降值 'reg_lambda': [0.8, 1.0, 1.2], # L2正则化系数 'reg_alpha': [0, 0.1, 0.5] # L1正则化系数 } ``` --- ### **三、自动化调参工具** #### **方案1:随机搜索(推荐)** ```python from sklearn.model_selection import RandomizedSearchCV import scipy.stats as stats param_dist = { 'max_depth': stats.randint(3, 10), 'eta': stats.uniform(0.001, 0.3), 'subsample': stats.uniform(0.5, 0.5), 'colsample_bytree': stats.uniform(0.5, 0.5) } search = RandomizedSearchCV( estimator=xgb.XGBRegressor(**params), param_distributions=param_dist, n_iter=50, cv=5, scoring='r2' ) ``` #### **方案2:贝叶斯优化(高阶)** ```python # 需要安装bayesian-optimization库 from bayes_opt import BayesianOptimization def xgb_cv(max_depth, eta, subsample): params.update({ 'max_depth': int(max_depth), 'eta': eta, 'subsample': subsample }) cv_results = xgb.cv(params, dtrain, nfold=5) return cv_results['test-r2-mean'].iloc[-1] optimizer = BayesianOptimization( f=xgb_cv, pbounds={ 'max_depth': (3, 10), 'eta': (0.001, 0.3), 'subsample': (0.5, 1.0) } ) optimizer.maximize() ``` --- ### **四、调参结果验证** #### **1. 早停法(必须使用)** ```python # 在交叉验证时添加早停 cv_results = xgb.cv( params, dtrain, num_boost_round=1000, early_stopping_rounds=50, # 连续50轮无提升则停止 nfold=5, custom_metric=r2_eval, maximize=True ) ``` #### **2. 学习曲线分析** ```python import matplotlib.pyplot as plt plt.figure(figsize=(10,6)) plt.plot(cv_results['train-r2-mean'], label='Train') plt.plot(cv_results['test-r2-mean'], label='Test') plt.axvline(cv_results.shape[0], color='gray', linestyle='--') plt.title('Learning Curve') plt.xlabel('Boosting Rounds') plt.ylabel('R² Score') plt.legend() plt.show() ``` --- ### **五、推荐参数组合示例** 基于行业经验的可选初始值: ```python optimized_params = { 'objective': 'reg:squarederror', 'max_depth': 6, # 通常4-9之间 'eta': 0.01, # 配合早停调整 'subsample': 0.8, 'colsample_bytree': 0.8, 'gamma': 0.1, 'lambda': 1.0, 'min_child_weight': 3, 'n_estimators': 1500 # 通过早停自动确定 } ``` --- ### **六、调参注意事项** 1. **计算资源管理**:使用`n_jobs`参数并行化(例如`n_jobs=-1`用全部CPU核心) 2. **数据预处理**:确保类别特征已正确编码(你已启用`enable_categorical=True`) 3. **参数互斥性**:避免同时使用过强的正则化(如高gamma+高lambda) 4. **业务指标对齐**:R²可能不是唯一评价标准,需结合MAE/RMSE综合判断 建议从随机搜索开始,逐步锁定关键参数范围后再进行精细网格搜索。每次调整后通过学习曲线验证是否出现过拟合/欠拟合。
阅读全文

相关推荐

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from pathlib import Path excel_path = "C:/Users/Administrator/Desktop/data2.xlsx" data = pd.read_excel(excel_path, sheet_name='Sheet1') x = data[['掺氨比', '总热输入', '分级比', '主燃区温度']] y = data['NOx排放浓度'] cat_cols = data.select_dtypes(include=['object']).columns for col in cat_cols: data[col] = le.fit_transform(data[col]) X = data.drop('NOx排放浓度', axis=1) y = data['NOx排放浓度'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) import xgboost as xgb dtrain = xgb.DMatrix(X_train, label=y_train) dtest = xgb.DMatrix(X_test, label=y_test) params = { 'objective': 'reg:squarederror', 'eval_metric': 'rmse', 'eta': 0.1, 'max_depth': 6, 'subsample': 0.8, 'colsample_bytree': 0.8 } model = xgb.train(params, dtrain, num_boost_round=100, evals=[(dtrain, 'train'), (dtest, 'test')], early_stopping_rounds=10) y_pred = model.predict(dtest) from sklearn.metrics import mean_squared_error, r2_score from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split print(f"MSE: {mean_squared_error(y_test, y_pred):.2f}") print(f"RMSE: {mean_squared_error(y_test, y_pred, squared=False):.2f}") print(f"R²: {r2_score(y_test, y_pred):.2%}") import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体为黑体 plt.rcParams['axes.unicode_minus'] = False xgb.plot_importance(model) plt.show() 检查错误

"""用户价值分层预测全流程示例""" import pandas as pd import numpy as np from sklearn.preprocessing import OrdinalEncoder, StandardScaler from sklearn.impute import SimpleImputer from sklearn.model_selection import train_test_split from factor_analyzer import FactorAnalyzer from factor_analyzer.factor_analyzer import calculate_kmo from xgboost import XGBClassifier import lightgbm as lgb from sklearn.metrics import classification_report # ====================== # 1. 数据读取与清洗 # ====================== def load_and_clean(data_path): # 读取数据 df = pd.read_csv(data_path) # 缺失值处理 num_imputer = SimpleImputer(strategy='median') cat_imputer = SimpleImputer(strategy='most_frequent') # 数值型字段 numeric_cols = ['付费金额', '活跃时长', '广告收入', '留存'] df[numeric_cols] = num_imputer.fit_transform(df[numeric_cols]) # 分类型字段 categorical_cols = ['设备价值档位', '用户初始广告档位'] df[categorical_cols] = cat_imputer.fit_transform(df[categorical_cols]) # 异常值处理 df['活跃时长'] = np.where(df['活跃时长'] > 24, 24, df['活跃时长']) df['付费金额'] = np.where( df['付费金额'] > df['付费金额'].quantile(0.99), df['付费金额'].quantile(0.95), df['付费金额'] ) return df # ====================== # 2. 特征工程 # ====================== def feature_engineering(df): # 构造复合特征 df['ARPU密度'] = df['付费金额'] / (df['活跃天数'] + 1) df['广告展示率'] = df['广告曝光次数'] / df['短剧观看次数'] df['内容互动指数'] = np.log1p(df['收藏数'] * 1 + df['分享数'] * 2 + df['评论数'] * 3) # 分类变量编码 encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1) cat_cols = ['设备价值档位', '用户初始广告档位'] df[cat_cols] = encoder.fit_transform(df[cat_cols]) return df # ====================== # 3. 特征筛选与降维 # ====================== def feature_selection(df, target_col='付费意愿档位'): # 划分特征和目标 X = df.drop(columns=[target_col]) y = df[target_col] # 计算IV值筛选 from sklearn.feature_selection import mutual_info_classif iv_values = mutual_info_classif(X, y) iv_df = pd.DataFrame({'feature': X.columns, 'iv': iv_values}) selected_features = iv_df[iv_df['iv'] > 0.02]['feature'].tolist() X_selected = X[selected_features] # 因子分析降维 kmo_all, kmo_model = calculate_kmo(X_selected) if kmo_model > 0.6: fa = FactorAnalyzer(n_factors=5, rotation='varimax') fa.fit(X_selected) factor_scores = fa.transform(X_selected) factor_cols = [f'Factor_{i}' for i in range(1, 6)] X_factors = pd.DataFrame(factor_scores, columns=factor_cols) else: X_factors = X_selected.copy() return X_factors, y # ====================== # 4. XGBoost特征筛选 # ====================== def xgb_feature_importance(X, y): # 训练XGBoost模型 model = XGBClassifier( objective='multi:softmax', eval_metric='mlogloss', use_label_encoder=False ) model.fit(X, y) # 获取特征重要性 importance = pd.DataFrame({ 'feature': X.columns, 'importance': model.feature_importances_ }).sort_values('importance', ascending=False) top10_features = importance.head(10)['feature'].tolist() return X[top10_features] # ====================== # 5. LightGBM建模预测 # ====================== def lgb_modeling(X, y): # 数据划分 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 ) # 模型训练 model = lgb.LGBMClassifier( num_leaves=31, max_depth=5, learning_rate=0.1, n_estimators=300, class_weight='balanced' ) model.fit(X_train, y_train) # 模型评估 y_pred = model.predict(X_test) print(classification_report(y_test, y_pred)) return model # ====================== # 主流程执行 # ====================== if __name__ == "__main__": # 数据路径 DATA_PATH = "new.csv" # 执行流程 df = load_and_clean(DATA_PATH) df = feature_engineering(df) X, y = feature_selection(df) X_top10 = xgb_feature_importance(X, y) final_model = lgb_modeling(X_top10, y) # 模型保存 final_model.booster_.save_model('user_value_model.txt')

import pandas as pd from sklearn import metrics from sklearn.model_selection import train_test_split import xgboost as xgb import matplotlib.pyplot as plt import openpyxl # 导入数据集 df = pd.read_csv("/Users/mengzihan/Desktop/正式有血糖聚类前.csv") data=df.iloc[:,:35] target=df.iloc[:,-1] # 切分训练集和测试集 train_x, test_x, train_y, test_y = train_test_split(data,target,test_size=0.2,random_state=7) # xgboost模型初始化设置 dtrain=xgb.DMatrix(train_x,label=train_y) dtest=xgb.DMatrix(test_x) watchlist = [(dtrain,'train')] # booster: params={'booster':'gbtree', 'objective': 'binary:logistic', 'eval_metric': 'auc', 'max_depth':12, 'lambda':10, 'subsample':0.75, 'colsample_bytree':0.75, 'min_child_weight':2, 'eta': 0.025, 'seed':0, 'nthread':8, 'gamma':0.15, 'learning_rate' : 0.01} # 建模与预测:50棵树 bst=xgb.train(params,dtrain,num_boost_round=50,evals=watchlist) ypred=bst.predict(dtest) # 设置阈值、评价指标 y_pred = (ypred >= 0.5)*1 print ('Precesion: %.4f' %metrics.precision_score(test_y,y_pred)) print ('Recall: %.4f' % metrics.recall_score(test_y,y_pred)) print ('F1-score: %.4f' %metrics.f1_score(test_y,y_pred)) print ('Accuracy: %.4f' % metrics.accuracy_score(test_y,y_pred)) print ('AUC: %.4f' % metrics.roc_auc_score(test_y,ypred)) ypred = bst.predict(dtest) print("测试集每个样本的得分\n",ypred) ypred_leaf = bst.predict(dtest, pred_leaf=True) print("测试集每棵树所属的节点数\n",ypred_leaf) ypred_contribs = bst.predict(dtest, pred_contribs=True) print("特征的重要性\n",ypred_contribs ) xgb.plot_importance(bst,height=0.8,title='影响糖尿病的重要特征', ylabel='特征') plt.rc('font', family='Arial Unicode MS', size=14) plt.show()

txt

最新推荐

recommend-type

数据挖掘概述.ppt

数据挖掘概述.ppt
recommend-type

浅谈互联网+儿童文学阅读指导策略(1).docx

浅谈互联网+儿童文学阅读指导策略(1).docx
recommend-type

前端分析-202307110078988

前端分析-202307110078988
recommend-type

推荐算法介绍PPT学习课件.ppt

推荐算法介绍PPT学习课件.ppt
recommend-type

变电站综合自动化抗电磁干扰的措施.doc

变电站综合自动化抗电磁干扰的措施.doc
recommend-type

500强企业管理表格模板大全

在当今商业环境中,管理表格作为企业运营和管理的重要工具,是确保组织高效运作的关键。世界500强企业在管理层面的成功,很大程度上得益于它们的规范化和精细化管理。本文件介绍的“世界500强企业管理表格经典”,是一份集合了多种管理表格模板的资源,能够帮助管理者们更有效地进行企业规划、执行和监控。 首先,“管理表格”这个概念在企业中通常指的是用于记录、分析、决策和沟通的各种文档和图表。这些表格不仅仅局限于纸质形式,更多地是以电子形式存在,如Excel、Word、PDF等文件格式。它们帮助企业管理者收集和整理数据,以及可视化信息,从而做出更加精准的决策。管理表格可以应用于多个领域,例如人力资源管理、财务预算、项目管理、销售统计等。 标题中提及的“世界500强”,即指那些在全球范围内运营且在《财富》杂志每年公布的全球500强企业排行榜上出现的大型公司。这些企业通常具备较为成熟和先进的管理理念,其管理表格往往经过长时间的实践检验,并且能够有效地提高工作效率和决策质量。 描述中提到的“规范化”是企业管理中的一个核心概念。规范化指的是制定明确的标准和流程,以确保各项管理活动的一致性和可预测性。管理表格的使用能够帮助实现管理规范化,使得管理工作有据可依、有章可循,减少因个人经验和随意性带来的风险和不确定性。规范化管理不仅提高了企业的透明度,还有利于培养员工的规则意识,加强团队之间的协调与合作。 “经典”一词在这里强调的是,这些管理表格模板是经过实践验证,能够适用于大多数管理场景的基本模式。由于它们的普适性和高效性,这些表格模板被广泛应用于不同行业和不同规模的企业之中。一个典型的例子是SWOT分析表,它可以帮助企业识别内部的优势(Strengths)、弱点(Weaknesses)以及外部的机会(Opportunities)和威胁(Threats)。SWOT分析表就是一个在世界500强企业中普遍使用的管理表格。 标签中的“表格模板”则是对上述管理工具的具体描述。这些模板通常是预先设计好的,能够帮助企业管理者快速开始工作,无需从零开始制作新的表格。它们包含了一些必备的字段和格式,用户可以根据自己的具体需求对模板进行调整和填充。 文件名称列表中的“index.html”可能是压缩包内的一个网页文件,用于展示管理表格的索引或介绍。如果这是一个在线资源,它将允许用户通过网页界面访问和下载各种表格模板。而“menu”可能是一个导航文件,用来帮助用户在多个表格模板之间进行选择。“data”文件夹可能包含了实际的表格模板文件,它们可能以Excel、Word等格式存在。 总的来说,管理表格是企业成功管理不可或缺的工具。通过使用世界500强企业所采纳的管理表格模板,其他企业可以借鉴这些顶级企业的管理经验,帮助自己在管理实践中达到更高的效率和质量。通过规范化和模板化的管理表格,企业可以确保其管理活动的一致性和标准化,这对于保持竞争力和实现长期发展至关重要。
recommend-type

YOLOv8目标检测算法深度剖析:从零开始构建高效检测系统(10大秘诀)

# 1. YOLOv8目标检测算法概述 ## 1.1 YOLOv8的简介与定位 YOLOv8(You Only Look Once version 8)作为一种前沿的目标检测算法,是由YOLO系列算法演化而来。该算法特别强调快速与准确的平衡,它被设计用于实时图像识别
recommend-type

mclmcrrt9_8.dll下载

<think>我们正在处理用户关于"mclmcrrt9_8.dll"文件的下载请求。根据引用内容,这个文件是MATLAB运行时库的一部分,通常与特定版本的MATLABRuntime相关联。用户需求:下载mclmcrrt9_8.dll的官方版本。分析:1.根据引用[2]和[3],mclmcrrt9_0_1.dll和mclmcrrt9_13.dll都是MATLABRuntime的文件,版本号对应MATLAB的版本(如9_0对应R2016a,9_13对应2022b)。2.因此,mclmcrrt9_8.dll应该对应于某个特定版本的MATLAB(可能是R2016b?因为9.8版本通常对应MATLABR
recommend-type

林锐博士C++编程指南与心得:初学者快速提能

首先,这份文件的核心在于学习和提高C++编程能力,特别是针对初学者。在这个过程中,需要掌握的不仅仅是编程语法和基本结构,更多的是理解和运用这些知识来解决实际问题。下面将详细解释一些重要的知识点。 ### 1. 学习C++基础知识 - **基本数据类型**: 在C++中,需要熟悉整型、浮点型、字符型等数据类型,以及它们的使用和相互转换。 - **变量与常量**: 学习如何声明变量和常量,并理解它们在程序中的作用。 - **控制结构**: 包括条件语句(if-else)、循环语句(for、while、do-while),它们是构成程序逻辑的关键。 - **函数**: 理解函数定义、声明、调用和参数传递机制,是组织代码的重要手段。 - **数组和指针**: 学习如何使用数组存储数据,以及指针的声明、初始化和运算,这是C++中的高级话题。 ### 2. 林锐博士的《高质量的C++编程指南》 林锐博士的著作《高质量的C++编程指南》是C++学习者的重要参考资料。这本书主要覆盖了以下内容: - **编码规范**: 包括命名规则、注释习惯、文件结构等,这些都是编写可读性和可维护性代码的基础。 - **设计模式**: 在C++中合理使用设计模式可以提高代码的复用性和可维护性。 - **性能优化**: 学习如何编写效率更高、资源占用更少的代码。 - **错误处理**: 包括异常处理和错误检测机制,这对于提高程序的鲁棒性至关重要。 - **资源管理**: 学习如何在C++中管理资源,避免内存泄漏等常见错误。 ### 3. 答题与测试 - **C++C试题**: 通过阅读并回答相关试题,可以帮助读者巩固所学知识,并且学会如何将理论应用到实际问题中。 - **答案与评分标准**: 提供答案和评分标准,使读者能够自我评估学习成果,了解哪些方面需要进一步加强。 ### 4. 心得体会与实践 - **实践**: 理论知识需要通过大量编程实践来加深理解,动手编写代码,解决问题,是学习编程的重要方式。 - **阅读源码**: 阅读其他人的高质量代码,可以学习到许多编程技巧和最佳实践。 - **学习社区**: 参与C++相关社区,比如Stack Overflow、C++论坛等,可以帮助解答疑惑,交流心得。 ### 5. 拓展知识 - **C++标准库**: 学习C++标准模板库(STL),包括vector、map、list、algorithm等常用组件,是构建复杂数据结构和算法的基础。 - **面向对象编程**: C++是一种面向对象的编程语言,理解类、对象、继承、多态等概念对于写出优雅的C++代码至关重要。 - **跨平台编程**: 了解不同操作系统(如Windows、Linux)上的C++编程差异,学习如何编写跨平台的应用程序。 - **现代C++特性**: 学习C++11、C++14、C++17甚至C++20中的新特性,如智能指针、lambda表达式、自动类型推导等,可以提高开发效率和代码质量。 ### 总结 学习C++是一个系统工程,需要从基础语法开始,逐步深入到设计思想、性能优化、跨平台编程等领域。通过不断的学习和实践,初学者可以逐步成长为一个具有高代码质量意识的C++程序员。而通过阅读经典指南书籍,参与测试与评估,以及反思和总结实践经验,读者将更加扎实地掌握C++编程技术。此外,还需注意编程社区的交流和现代C++的发展趋势,这些都对于保持编程技能的前沿性和实用性是必不可少的。
recommend-type

线性代数方程组求解全攻略:直接法vs迭代法,一文搞懂

# 摘要 线性代数方程组求解是数学和工程领域中的基础而重要的问题。本文首先介绍了线性方程组求解的基础知识,然后详细阐述了直接法和迭代法两种主要的求解策略。直接法包括高斯消元法和LU分解方法,本文探讨了其理论基础、实践应用以及算法优化。迭代法则聚焦于雅可比和高斯-赛德尔方法,分析了其原理、实践应用和收敛性。通过比较分析,本文讨论了两种方法在