统计机器学习

女性乳腺癌诊断

这里利用自主开发的机器学习软件进行女性乳腺癌诊断测试。

测试数据来源于美国Wisconsin 大学医院临床资料。提供者是 University of Wisconsin Hospitals, Madison from Dr. William H. Wolberg.

特征是从乳腺肿块的细针抽吸物（FNA）的数字化图像中计算出来的。它们描述了图像中细胞核的特征。主要特征包括

1）身份证号码
2）诊断（M=恶性，B=良性）

计算每个细胞核的十个特征：

a）半径（从中心到周长上的点的平均距离）
b）纹理（灰度值的标准偏差）
c）周长
d）区域
e）平滑度（半径长度的局部变化）
f）压实度（周长^ 2/面积-1.0）
g）凹度（轮廓凹面部分的严重程度）
h）凹面点（轮廓凹面部分的数量）
i）对称性
j）分维（“海岸线近似”-1）

试验时，用一些新的样本进行测试，这些样本来源于原始数据集，但是从训练集中删除。未对算法优化时，测试了几种计算正确性。

学习算法	正确率
LDA	74.2%
QDA	67.4%
MKNN	91.3%
NAIVE BAYSE	89.8%
BAYSE	76.6%

在乳腺癌计算中，发现考虑更为精细的BYASE和QDA方法性能反而不佳。从计算角度而言，两者应该是一致的。但是这里居然出现不一致情况。通过进一步数据分析，虽然实际样本对于特征协方差计算已经有冗余。但由于很多特征之间是高度相关的，因此对数据结果有影响。而Naive Bayes由于没考虑到这些因素，反而效果相对稳定。Mknn则由于无这些条件约束，因此性能表现较为稳定。如果需要提高诊断准确性，需要把一些数值变量改为定性变量，这样可以较好的进行提升。需要做一些预处理分析。

Astrodynamics

统计机器学习

目录

女性乳腺癌诊断