song.yz@foxmail.com wechat: math-box

统计机器学习



女性乳腺癌诊断



这里利用自主开发的机器学习软件进行女性乳腺癌诊断测试。

测试数据来源于美国Wisconsin 大学医院临床资料。提供者是 University of Wisconsin Hospitals, Madison from Dr. William H. Wolberg.

特征是从乳腺肿块的细针抽吸物(FNA)的数字化图像中计算出来的。它们描述了图像中细胞核的特征。 主要特征包括
  • 1)身份证号码
  • 2)诊断(M=恶性,B=良性)
计算每个细胞核的十个特征:
  • a) 半径(从中心到周长上的点的平均距离)
  • b) 纹理(灰度值的标准偏差)
  • c) 周长
  • d) 区域
  • e) 平滑度(半径长度的局部变化)
  • f) 压实度(周长^ 2/面积-1.0)
  • g) 凹度(轮廓凹面部分的严重程度)
  • h) 凹面点(轮廓凹面部分的数量)
  • i) 对称性
  • j) 分维(“海岸线近似”-1)


试验时,用一些新的样本进行测试,这些样本来源于原始数据集,但是从训练集中删除。 未对算法优化时,测试了几种计算正确性。
学习算法 正确率
LDA 74.2%
QDA 67.4%
MKNN 91.3%
NAIVE BAYSE 89.8%
BAYSE 76.6%


在乳腺癌计算中,发现考虑更为精细的BYASE和QDA方法性能反而不佳。从计算角度而言,两者应该是一致的。但是这里居然出现不一致情况。 通过进一步数据分析, 虽然实际样本对于特征协方差计算已经有冗余。但由于很多特征之间是高度相关的,因此对数据结果有影响。而Naive Bayes由于没考虑到这些因素,反而效果 相对稳定。Mknn则由于无这些条件约束,因此性能表现较为稳定。 如果需要提高诊断准确性,需要把一些数值变量改为定性变量,这样可以较好的进行提升。需要做一些预处理分析。