统计机器学习
女性乳腺癌诊断
这里利用自主开发的机器学习软件进行女性乳腺癌诊断测试。
测试数据来源于美国Wisconsin 大学医院临床资料。提供者是 University of Wisconsin Hospitals, Madison from Dr. William H. Wolberg.
特征是从乳腺肿块的细针抽吸物(FNA)的数字化图像中计算出来的。它们描述了图像中细胞核的特征。 主要特征包括
- 1)身份证号码
- 2)诊断(M=恶性,B=良性)
- a) 半径(从中心到周长上的点的平均距离)
- b) 纹理(灰度值的标准偏差)
- c) 周长
- d) 区域
- e) 平滑度(半径长度的局部变化)
- f) 压实度(周长^ 2/面积-1.0)
- g) 凹度(轮廓凹面部分的严重程度)
- h) 凹面点(轮廓凹面部分的数量)
- i) 对称性
- j) 分维(“海岸线近似”-1)
试验时,用一些新的样本进行测试,这些样本来源于原始数据集,但是从训练集中删除。 未对算法优化时,测试了几种计算正确性。
学习算法 | 正确率 |
---|---|
LDA | 74.2% |
QDA | 67.4% |
MKNN | 91.3% |
NAIVE BAYSE | 89.8% |
BAYSE | 76.6% |
在乳腺癌计算中,发现考虑更为精细的BYASE和QDA方法性能反而不佳。从计算角度而言,两者应该是一致的。但是这里居然出现不一致情况。 通过进一步数据分析, 虽然实际样本对于特征协方差计算已经有冗余。但由于很多特征之间是高度相关的,因此对数据结果有影响。而Naive Bayes由于没考虑到这些因素,反而效果 相对稳定。Mknn则由于无这些条件约束,因此性能表现较为稳定。 如果需要提高诊断准确性,需要把一些数值变量改为定性变量,这样可以较好的进行提升。需要做一些预处理分析。