抽象性
子宫颈癌经常是一种致命疾病,在女性中常见早期诊断宫颈癌可降低死亡率和其他相关并发症子宫颈癌风险因素有助于早期诊断提高诊断精度,我们建议研究宫颈癌早期诊断,使用降低风险特征集和三种组合基础分类技术,即极端梯度推理法(XGBost)、Adaboost和随机森林法(RF)以及Firefly算法优化合成稀有技术采样技术用于缓解数据不平衡问题子宫颈癌风险因素数据集包含32个风险因素和四大目标(Hinselmann、Schiller、Cystelogy和Biopsy),用于研究中四大目标使用子宫颈癌诊断测试拟研究效果评价精度、敏感度、特性、正预测精度(PPA)和负预测精度(NPA)。此外,用FireFriet特征选择技术实现更好效果并减少特征数目实验结果显示拟议模型的重要性并实现Hinselmann测试的最高结果,而与其他三次诊断测试相比此外,特征数目的减少增强了结果此外,与使用降低风险因素数据集诊断宫颈癌的其他基准研究相比,拟议模型的性能在精度方面显而易见。
开工导 言
子宫颈癌是女性常见型癌症之一,多半在中生期间开发(35-44岁)[一号..此类癌症可能致命,因为它在早期阶段没有显示清晰的症状Symptom通常出现在后期阶段,可能传播到骨骼、肝脏、淋巴结和肺等其他器官宫颈癌早期信号之一是从肾脏运尿管阻塞可出现的其他延迟症状有阴道出血、盆痛、减肥和腿痛2..
诱发宫颈癌的风险因素有荷尔蒙内含药品、节育药片、吸烟和怀孕数人乳头瘤病毒(HPV)被认为是子宫颈癌发展的主要因素2..HPV常见性传染通常无害性,但有时可能导致癌症3..HPV感染患子宫颈癌的风险更高并发子宫颈癌概率增加癌症早期不显示征兆,需要定期检查,对于有风险因素者尤其如此。在发展中国家,缺少医疗设备以及检查费用也可能是一个负担。随着机器学习的出现和升级,有可能找到稳健解决办法使用数据驱动法早期诊断癌症案例
各种研究使用多种分类技术帮助子宫颈癌诊断领域,使用不同类型的数据,如临床数据、图像数据、遗传数据等研究中使用子宫颈风险因素临床数据武州和周市进行了两项相似研究4和Abdoh等[5万事通对两种特征选择技术进行了比较分析,即递归特征消除法和主构分析法第一项研究使用支持向量机,另一项研究使用随机森林两项研究使用相同数目特征数据有失均衡,但多采样应用到数据中4sMOTE使用5..这两项研究都发现两个危险因素需要消除,例如自第一次和最后一次诊断性病(性病)以来的时间问题,原因是缺少多分录。并研究4发现较低的计算成本是SVM-PCA和SVM-RFE都给的优势,而高计算成本则限制SVM模型性病、宫内装置、荷尔蒙避孕药和初次性交被确定为高度相关特征5..总体而言,这两项研究的结果显示使用30个特征产生最高结果此外,还发现SMOTE-RF模型在所有目标方面表现良好。
类似Lu等[6和Karim和Neehal7混合模型估计子宫颈癌风险两项研究都用数据清理机制替换缺失值前项研究使用联想分类器并使用公有和私有数据集组合投票策略私有数据集内存中国医院记录472公共数据集取自UCI存储库14个特征使用私有数据集使用问卷收集结果表明投票共分解器比线性回归、决策树、多层感知器、SVM和K-NN分类器产生更好的结果Karim和Neehal研究使用DT、MLP和SVM相继最优化和K近邻技术实验显示SMO在精度、精度、回召和F度量方面性能优类似Ul-Islam等[8service模型树和ANN检测宫颈癌Apriori算法用于识别与癌症强连通特征研究发现,年龄、性伙伴数、荷尔蒙避孕药、怀孕数和初次性交数是重大风险因素。结果表明RF与其他模型相比产生最佳结果
微信等[九九对高斯奈夫贝叶斯(GNB)、KNN、DT、LR和SVM等不同机器学习分类器进行比较分类器结果因数据偏差不令人满意并应用低采样、高采样和SMOTETomek重采样在所有三种方法中都产生最佳效果并用前向和后向版本应用序列特征选择器顺序前向特征选择器和顺序后向特征选择器均提高预测性能,精度达95%选择DT和KNN的共同特征后,DT精度超过97%检测结果显示,年龄、初次性交、怀孕数、吸烟、荷尔蒙避孕药和性病:生殖器激素是主要预测特征
类似地,利用深学习转学诊断宫颈癌Fernandes等[10和Adem等[11深入学习显示诊断精度研究10损函数提供受监督的维度减法和分类模型优化研究表明,如果Biopsy结果和也许其他测试结果缺失并能够成功分类子宫颈癌或非子宫颈癌,它可能有助于检查病人记录。反之,研究者 in11使用深神经网络模型软max函数分类数据集软max函数与堆码自译自译自算法与其他机器学习法(DT、KNN、SVM、FeedwardNN和旋转森林模型)比较发现软max函数与堆叠自编码器模型产生更好的结果分类率97.8%。
类似地Fernandes等[12应用转移学习部分可观察癌症筛选受限研究数名病人拒绝回答隐私问题质量定义也面临挑战,因为有多重读数并开始依赖人类偏爱并使用简单二进制尽管如此,模型性能相当可观。
归根结底,在上述文献后发现UCI存储库发现数据集多值缺失上期研究删除至少2个特征缺失值是由于病人对隐私的关切SVM-PCA删除2个特征后,因缺值巨大,似乎提供令人满意的性能SMO和SMOTE-RF最佳模型处理UCI宫颈风险因素数据集不平衡的另一种方法就是使用过量采样深入学习证明有效,特别是在没有生物检测结果和可能其他筛选结果时。年龄、初次性交数、怀孕数、吸烟、荷尔蒙避孕药、IUD、性病、性病:生殖器元件或HPV感染被确定为顶级关键特征机器学习分类器产生的重要结果激励需要进一步调查并增强预测宫颈癌结果
研究中三大基级极端梯度推理 Ada推理和RF用于子宫颈癌分类子宫颈癌风险因素数据集从UCI机学习库收集13..除正确分类癌症和非癌症案例的重要性外,还有必要识别诱发癌症的关键风险因素。自然点火虫特征选择优化算法应用此外,合成少数类高采样技术(SMOTE)用于平衡数据类别,因为它极受不平衡问题困扰。
论文组织如下:2展示素材方法段内3内含实验搭建和结果节中讨论拟建模型与使用同一组数据集的现有研究的比较4.最后一节5内含结论 。
二叉素材方法
2.1.数据集描述
研究中使用的宫颈癌风险因素数据集是在委内瑞拉加拉加斯医院大学收集的,并存UCI机器学习库中[13..内含858记录并缺值,数据集包含32个风险因素和4个目标,即宫颈癌诊断测试内含各种特征集,如习惯、人口信息、历史和基因组医学记录特征如年龄、Dx:癌症、Dx:CIN、Dx:HPV和Dx特征不缺值CIN变换子宫墙 通常由HPV感染有时,如果不适当处理,可能导致癌症Dx:癌症变量表示病人有否其他类型癌症有时病人可能有多种癌症数据集中有些病人没有宫颈癌,但他们有Dx值:癌症真值因此,它不作为目标变量使用
表2一号简单描述类型中的特征子宫颈癌诊断通常需要多项测试数据包含广泛使用诊断测试作为目标Hinselmann、Schiller、Cystelogy和Biopsy四大常用诊断测试子宫颈癌Hinselmann或Colposcopy测试使用放大组织检测异常工具检查阴道和子宫3..Schiller测试称碘化学物质应用子宫内,将健康细胞染色并留异细胞非色化,而细胞学测试用子宫子宫内细胞检查癌症细胞或其他疾病生物检测指用显微镜检查一小部分宫颈组织多数生物检测能做出重大诊断
2.2.数据集预处理
数据集有大量缺失值24特征32包含缺失值初始特征缺失大百分比清除STDs:自第一次诊断以来的时间和STS:自上次诊断特征消除以来的时间,因为它们缺值787(见表)。2数据大半数据估计对缺值少数特征进行最常用值技术用于估计剩余缺失值此外,数据集还存在大规模级不平衡问题。数据集目标标签分布不均,Hinselmann为35个,Schiller为74个,Cytual为44个,858记录中Biopsy55个如图所示一号.SMOTE处理类不平衡SMOTE多采小类工作,生成新的小类合成数据,基础是近邻使用欧几里得数据点间距离14..图一号显示数据集中每个类标签记录数

2.3firefly特征选择
分量减法有效选择特征提高监督学习模型性能的方法研究中,我们选自然启发算法FireFlyFirefly由杨推荐15并初步建议优化仿法飞火算法受飞虫闪亮能力启发基于人优化算法查找目标函数最优值或参数使用此技术,每只苍蝇都因邻近苍蝇发光强度而拉出光束强度极低时 吸引度会下降firefly使用三大规则即a)所有苍蝇应同性性能标准取决于光亮强度目标函数生成飞光淡光苍蝇向光辉苍蝇移动亮度可用目标函数调整算法中应用同一思想搜索最优性能,以更好地适应培训模型firefly比较计算经济并产生更好的特征选择结果,而基因算法和粒子群优化等其他计量技术则比较优异16..时间复杂性飞 [17..光强度选择特征高度相关特征表示为高强度光特征
关于特征选择,初始时会生成一些阻燃虫,而每根苍蝇会随机分配所有特征的权重研究中产生50数苍蝇N级=50)维度数据集为30下界定为-50,上界等于50最大代数500况且α初始设置为0.5 并在随后的每一次迭代中,我们使用一号)和(b)2)更新α数位值
然而伽马 设为1Hinselmann使用FireFly选择特征数分别为15个、Schiller13特征、Cytulogy11特征和Biopsy11特征
2.4.组合分类法
三种组合分类技术,如随机森林、极端梯度推理和Ada推理培训模型下一节将讨论这些技术的描述。
2.5随机森林
随机森林由Breiman于2001年首次提议18号..随机森林是一个组合模型,使用决策树作为单个模型并装袋作为组合法提高决策树性能 多树减少决策树的超配RF可用于分类和回归RF生成随机森林,森林中装有决策树并从中获取预测19号..
训练树时,必须测量每个特征减少杂质的程度,因为杂质下降表示特征意义树分类结果取决于所使用的杂质度量对分类而言,杂质度量或基尼杂质或信息增益和回归度度度值,杂质度度度值为差值训练决策树由迭代分解数据组成吉尼杂质使用公式决定数据最优划分 去哪儿公元前高山市一概率选择类数据点信息增益(IG)也是判定数据最佳划分的另一项尺度,视每个特征增益而定公式计算信息增益
2.6极端梯度启动
eXreme渐变推理技术20码..XGost可用于分类、回归和排名问题XG推送是一种梯度推送梯度推导法推导共性技术GB方法通过合并弱分类器产生强分解器21号..目标GB构建迭代模型优化损函数点评弱学习者故障使用渐变损函数21号: 去哪儿e类表示出错词损函数测量模型适配底层数据损函数取决于优化目标,因为回归度测真值和假设值之间的误差,而对于分类而言,则测优度模型正确分类案例21号..技术耗时少迭代少,因为预测者从其他预测者过去的错误中学习g工作教模型C预测表单值
最小化损函数,例如MSE 去哪儿一迭代数组培训N级真实值变量ysC级高山市X级)y市=真值 &N级=实例数y市.
考虑GB模型M级相位和m单级状态 )改善某些缺陷模型F级m新估计器hm高山市X级)添加正因如此
估计器h将安装 ,即真实值和假设值即剩余值之差正因如此,我们试图调整前模式错误F级m)[22号..
XGBost比Ada加速速度和性能强高可缩放速度比其他传统单机学习算法快10倍XGBost处理稀疏数据并应用数大优化规范技术此外,它还使用并行分布计算概念
2.7Adaboost
自适应推理器原创建议Freund和Schapire二元分类23号..编译元分类器使用累进学习合并数个弱分类器
AdaBoost使用增强数据采样技术概念自适应采样用于分配误分类事件高权值误分类样本将在下一个迭代中选择,以更好地训练模型,最后预测使用加权投票AdaBoost降低误差率,对预测效果优于打包24码并使用决策树立初始时数据集中所有样本均等量权重等一等X级数样本数据集,y市成为目标目标二进制类表示0和1第一批决策树立本使用数据集中的一些记录并实现预测初始预测后,样本权值将更新更多权值分配误分类数据样本高权值样本将在下一个迭代中选择进程会继续,除非差错率完全下降或目标水平实现
AdaBoost包含两个主要步骤,组合并用相继迭代法向前跨步训练集中所有实例在第一次迭代中都具有等值权值但在后续迭代中,权值根据误差率修改出错实例加权重二类分类问题包含T级训练样本以下列方程表示:
等一等C级线性组合弱分类器组合分类表示 去哪儿N级微分数 表示权数并C级高山市X级表示弱分类器下一迭代中,分类器根据分类器前迭代性能培训 去哪儿 表示分类器t级迭代 表示分类器性能t级-一迭代
可使用下列方程计算权值 表示弱分类器出错率
2.8优化策略
本节讨论优化策略查找最佳超参数组合产生最高目标结果Firefly优化算法用于参数触发firefly细节解析2.3.表23显示随机森林四大目标超参数值表24表示 XGBoost使用参数Gbtree加速器随机使用42和学习率0.05类似表5显示最优特征abost此外,图解2-4表示网格搜索优化图随机森林、极端梯度启动和AdaBoost分类器



3级实验搭建和结果
Python语言3.8.0使用Jupyter笔记本环境发布模型Ski-learn库使用分类器和其他需要内置工具,而单库使用xgbost1.2.0K倍交叉验证K级=10分解数据训练测试使用五大评价尺度,如精度、敏感度(回召)、特性(精度)、正预测精度(PPA)和负预测精度(NPA)。敏感度和特征因应用拟议模型而在研究期间更加集中精确表示正确分类案例百分比,敏感度测量正数案例百分比归正数,特性指负数案例归负数百分比此外,选择性能评价尺度的标准取决于基准研究使用的措施。使用FireFly特征选择算法对每个目标进行两组实验,四大目标进行30套特征实验SMOTE技术应用生成合成数据模型结果见下一节
3.1.欣赛尔曼
表26显示精度、敏感度、特性、PPA和NPA分别为RF、Adaboost和XGost模型使用SMOTEHiselmann测试目标类hiselmann选择特征数为15XGost表现优于其他分类器对两个特征集XGBoost特征性能优于30特征模型精度98.83,敏感度97.5,特性99.2,PPA99.17和NPA97.63
3.2席勒
表27显示Schiller测试结果和Hinselmann目标相似 XGBoost特征优于Schiller与Hinselmann目标类相比,Schiller模型实现的结果较低RF和XGBoost性能相似Schiller选择特征小差FireFlyer选择希勒13
3cm3循环学
表28显示所有分类器结果 细胞诊断测试和Hinselmann和Schiller诊断测试相似 XGost优于Cytulogy测试关于特性和精度,使用30和选定特征实现相似结果类似地,RF性能在30和选定特征上相似。FireFly特征选择器所选择的特征数为11
3.4.生物采样
性能不大相径庭,但使用所有特征后精度均高于使用SMOTE时精度,SMOTE选用生物感知特征时精度见表九九.XGB所有特征最精度97.1然而,对于其它度量, XGBoost性能优于所选特征所有测量均实现相似性能,对特征集30使用RF分类并选取Biopsy目标类选择特征数为11
整体上,在所有四诊断测试比较后,Hinselmann测试取得更好的结果并可用于诊断宫颈癌,如表所示10.Hinselmann诊断测试比Schiller、Biopsy和Cytulog等子宫颈癌诊断测试效果更好Abdoh等[5呼和周4学习
4级比较现有研究
研究使用三种组合技术Adaboost、极端梯度推理和随机森林此外,拟议研究率先使用生物启发算法选择特征并优化宫颈癌诊断探索我们拟议研究的意义,研究结果与基准研究比较基准研究选择标准基于用于诊断宫颈癌的数据集表211内含拟技术与文献基准研究的比较基准研究最佳结果使用30个特征实现然而,前几次研究中的一些结果与减值特征相匹配实现。括号中数与部分结果相邻表示特征数
基础表11所拟研究的精度基准术语优于这两项研究并降低风险因素所实现的敏感度和NPA小于Wu和Zhou4高得比Abdoh et al[5..数特征在Wu et al研究为30项,而拟议研究使用减少风险因素特征和PPa建议研究比基准研究高,但Schiller诊断测试除外
简言之,当前研究的主要贡献是应用生物启发算法选择特征并优化宫颈癌风险因素模型拟建模型比前几期子宫颈癌风险因素数据集相关研究增强结果虽有上述优势,研究仍受某些限制:数据集极不平衡,并使用SMOTE生成增强数据此外,当前研究以开源数据集为基础,使用其他开源数据集需要进一步测试
需要验证医院实数据集模型
5级结论
本研究展示数项组合技术调查,如随机森林、Adaboost和极梯推理子宫颈癌数据集取自UCI机器学习库,内存858记录、32特征和4目标变量目标变量是宫颈癌诊断测试对每个目标类分别进行了实验数据预处理包括估计缺失值和类平衡使用SMOTE生物驱虫算法优化模型并识别关键特征对比模型性能时,实验用SMOTED数据用30个特征和选定特征进行。极端梯度推导优于其他四种目标变量的2模型未来工作模型多数据集验证并调查其他模型处理异常值和偏差数据
数据可用性
研究使用开源数据集https://archive.ics.uci.edu/ml/datasets/Cervical+cancer+%28Risk+Factors%29.
利益冲突
撰文者声明,本论文的发布不存在利益冲突问题。