基于随机森林算法的嵌入式网络风险模型分析研究
摘要
通过对COSMIC-FFP模型的扩展和优化,提出了一种嵌入式网络系统的度量方法,解决了COSMIC-FFP模型不支持实时系统度量的问题。并设置网络错误。 基于网络规模测量的测量方法。通过对网络规模的准确测算和网络故障分析,找出网络工程过程风险管理的薄弱环节,达到降低网络工程过程风险的目的。
关键词:网络度量;缺陷密度;风险分析;
目录
摘要 1
1引言 1
2 相关理论基础 2
2.1 随机森林算法 2
(1)Bagging方法 3
(2)CART算法 3
3 应用分析 4
4 结论 5
参考文献 5
1引言
网络缺陷多少是衡量网络系统质量好坏的重要标准之一。随着内置网络的性质和功能的增加,内置网络设计的规模和故障风险也随之增加,网络规模是影响网络故障风险的关键因素。因此,在分析网络故障的风险时,有必要仔细测量网络的规模,以便在项目的早期和开发过程中有效控制网络故障的引入和传播。基于空间ffp模型,对嵌入式网络系统的过程风险进行了评估和分析。为了使空间模型能够准确地测量内置的实时系统,本文从三个方面对该模型进行了扩展和优化,提出了一种基于系统规模的任何测量的网络故障测量方法,它评估了每个开发阶段的缺陷指标,并指导项目管理层加强对一些具有这种常见故障检测因素的项目的风险管理,以降低在项目后期加剧网络故障的风险。缺陷风险分析方法的有效性验证了该项目的实际应用。
2 相关理论基础
2.1 随机森林算法
随机森林算法是由Leo Breiman和Adele Cutler提出了一种集成学习方法,即由多个小模型组成,每个小模型的输出被组合成最终的输出。随机森林算法是一种典型的机器学习算法,通常用于分类、回归或其他学习任务。随机森林算法基于一种工作算法,将原始数据集中的数据分组。训练后,为每个组获得合适的决策树模型。最后,将决策数据的所有结果进行组合,以获得最终的随机森林模型。随机森林算法预测的最终结果基于投票算法,投票数最高的分类是随机森林算法的最终结果。通过使用多个分类器进行分类投票,随机森林算法可以有效地减少单个分类器的错误,提高分类精度。实践经验表明,与人工神经网络、回归树和支持向量机算法相比,随机森林算法具有更大的稳定性和可靠性,相应的分类精度也处于领先水平。随机森林算法能够有效处理大规模数据,适应高维数据应用场景。同时,它可以在数据缺失的场景中保持较高的分类率,随机森林算法的样式如图1所示。
图1 随机森林算法样式
随机森林算法相比于目前其他分类算法,它具有更好的分类效率。同时,它可以大规模处理数据,大规模处理可变参数,直观地评估可变特征的重要性。越来越多的随机森林算法实践证明,随机森林算法具有很高的分类效率,能够保持较高的分类效率和较好的可靠性和稳定性。
(1)Bagging方法
Bagging算法其主要思想是,任何分类计算过程都不依赖于之前的任何分类计算过程。每个分类计算过程从原始数据集中随机抽取一些数据集进行独立操作,并有效地聚合每个分类器的计算结果,以提高算法的分类精度,还具有避免过度匹配、泛化和学习算法不稳定的能力。
随机森林算法的计算过程如下:
1.从数据集D中随机且可重复的样本n,以创建新的训练数据集;
2.重复上述过程m次,获得m个独立的训练数据子集;
3.对M个训练数据子集运行分类、回归等算法,得到M个结果;
4.对于M个结果,应使用加权计算、算术平均和多数表决法进行最终计算,以获得总体输出。
整个计算过程的流程如图2所示,在实现随机森林算法的过程中,bagging方法可以有效提高不同决策树数据集的效率,提高数据集选择的泛化能力,从侧面提高算法分类的效率。同时,它可以有效地减少不同决策树训练子集的过度匹配。
图2 Bagging方法示意图
(2)CART算法
随机森林算法的子模型是CART模型,因此,在解释有关随机森林的信息之前,有必要了解CART模型。因此,首先详细描述CART模型。CART 算法是 Breiman 和随机森林算法决策树。大多数人在分离决策树的节点时会选择一个带有基尼符号的属性作为分裂属性,然后生成一棵双决策树。CART 算法使用双递归模式来创建双树。每个划分将整个样本集分成两组,形成一棵有两个分支的小树,Gini指数主要用于表示数据集的不纯度。样本集D的Gini指数定义为:
其中:
pi表示为样本集D中数据归属于类别Cj的概率。如果样本集D基于属性A的二元划分将分成两个子集D1和D2.
则基于此划分的 Gini 指数可以计算为各个分区不纯度的加权和:
通过上述计算,可以得知基于属性A的二元划分导致的不纯度降低为:
在CART算法执行过程中,篮子算法通过二分法递归地划分要分类的数据集,直到分类树叶子的每个节点成为相同的数据集。如果数据集自身的值是连续值,则生成的结果是回归树。包外(OOB)的定义是:在生成每棵树的过程中,我们基于bagging方法获得训练分类器的训练子集。这部分从未被提取的数据称为OOB.在实现实际的随机森林算法时,OOB可以用来检查每个决策树的质量,相应的计算误差就是OOB误差。OOB误差的计算是一种公正的估计,可以取代数据集交叉验证的方法,实际经验表明,其计算值通常相当准确。因此,它通常被用作评估随机森林算法分类效率的常用算法评级指标。OOB误差值越小,随机森林算法的分类效率越好。OOB误差:决策树K的平均OOB误差通常用于估计随机森林算法的OOB误差,其通常表示为:
3 应用分析
图3是改进后项目网络缺陷数据分析结果,图3中的相对值是缺陷的密度,其测量单位是缺陷数量与功能点数量的比率(defs./FP)。如图3所示,在项目早期开发过程中,故障检测率非常高,尤其是在详细设计和编码阶段发现了近50%的系统故障,因此在项目开始时发现了更多故障,并及时解决,减少剩余故障,有效防止增加测试阶段遗留故障影响的可能性。在模块测试阶段,29.4%的系统故障也通过项目团队成员的交叉测试被检测到,最终系统测试阶段的缺陷显著减少。整个项目的缺陷数据呈现趋同趋势,与项目1相比有显著改善,设计缺陷风险得到控制,这也是网络项目风险管理所期望的结果。
图3 缺陷密度分布图
综上统计结果可知:利用优化后的cosmic ffp模型估算嵌入式网络系统的功能点,可以在项目前期准确测量系统的规模,并通过分析故障数据,有效指导项目经理识别故障问题,减少故障积累,降低项目开发的风险和成本。