6.样本内训练:使用最优超参数设置下的XGBoost基学习器对完整的原始样本内数据集进行训练。采用Bootstrap方案1时,对100组Bootstrap样本内数据集分别进行训练,得到100组XGBoost模型。
7.样本外测试:完成模型训练后,以T月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值。将预测值视作合成后的因子,采用回归法、IC分析法和分层回测法进行单因子测试。采用Bootstrap方案2时,对100组Bootstrap样本外数据集进行预测并回测。采用Bootstrap方案3时,将原始样本外数据集后按照100组Bootstrap回测时间重新组织并回测。
8.模型评价:
a) (针对Bootstrap方案1)100组测试集正确率、AUC等衡量模型性能的指标分布情况;
b) (针对Bootstrap方案1、2和3) 单因子测试得到的统计指标和回测绩效的分布情况。