统计机器学习

Content

case study

Appendix(code source)

支持向量机数值逼近

以下内容摘自《LS-SVM稳健设计及正则化性能分析》飞行器测控学报,2012,06:80-85 . 一文。

数值逼近与模式识别问题，广泛应用于许多学科。这一类问题的一个通俗的表述是：给定来自某种依赖关系的数据集，推断数据之间的函数依赖关系。其研究基础可以追溯到高斯、拉普拉斯等人的工作，而系统的分析这些问题起始于20世纪20年代左右。处理这一类问题的方法大体分为两类不同的思维过程：归纳推理与转导推理。

归纳推理，试图发现样本的一般性自然规律，进而把这种演绎到其他数据上。通常的做法是约定某种模型，通过样本给出某种最优意义准则下的参数最优估值，进而得到对其他数据逼近目的。归纳推理的理念是由特殊到一般，然后再由一般到特殊。

转导推理则直接进行从特殊到特殊的推理过程，避免推理问题中可能存在的不适定的情况。基于这一理念，Vapnik等人提出了著名的支持向量机理论（SVM）。这一理论在20世纪九十年代末起，成为国际上最重要的统计学习方法。经典的SVM方法的求解需要用到二次规划方法，SVM学习行为随着训练样本数目增加而渐进的线性增长。最小二乘支持向量机方法（LS-SVM），数据的训练过程由二次规划转变为解非线性方程组问题

LS-SVM方法有在工程应用中由于程序设计简单，稳定性好得到了广泛的应用。然而，LS-SVM在系统噪声为高斯分布的情况下学习效果较为理想。若噪声不服从高斯分布， LS-SVM则学习性能不佳，尤其对野值非常敏感。在这种情况下用LS-SVM对函数逼近很容易歪曲系统的真实情况。

本文借鉴了稳健估计的一些思想并结合最优化理论中的正则化方法给出了在含有野值情况下的LS-SVM设计方法，下称为稳健最小二乘支持向量机（RLS-SVM）。

这里的稳健设计方法与普通的稳健估计有根本的区别，在普通的稳健估计中，当数据评估时如果数据质量较差，则在下一次迭代时，对该数据降权。在LS-SVM方法构造中，其代价函数是最小二乘方，但是要求解的方程是适定方程。在这样的情况下，如果有数据存在野值，被剔除的话，那么系统变为欠定方程，存在无穷多解。即便不设置阈值，若把数据权降的很低，方程接近奇异，无法求解。针对这一问题，这里从另一个思路出发，如果数据评估质量较差，不改变该数据本身的权重，而是对支持向量在Hilbert空间的坐标的权重降低，要做到这一点是通过改变系统的正则化因子向量。

下面先介绍最小二乘支持向量机基本原理，进而给出其稳健设计方法，并通过数值实验对其进行验证分析。对于训练样本数据，\[({{\mathbf{x}}_i},{y_i})(i = 1, \cdots ,M)\] \[{{\mathbf{x}}_i} \in {R^n},{y_i} \in R\] ，可以构造如下的逼近函数 \[f\left( {\mathbf{x}} \right) = {{\mathbf{w}}^T}{\mathbf{\Phi }}\left( {\mathbf{x}} \right) + b\] 其中w 是l 维权向量，b 是偏置项， \({\mathbf{\Phi }}\left( {\mathbf{x}} \right)\)是 n维向量 x到 l维特征空间的映射函数。最小二乘支持向量机可以描述为 \[\left\{ \begin{gathered} \min \quad J\left( {{\mathbf{w}},b,{\mathbf{\xi }}} \right) = \frac{1}{2}{{\mathbf{w}}^T}{\mathbf{w}} + \frac{C}{2}\sum\limits_{i = 1}^M {\xi _i^2} \hfill \\ {\text{s}}{\text{.t}}{\text{.}}\;\quad {y_i} = {{\mathbf{w}}^T}{\mathbf{\Phi }}\left( {{{\mathbf{x}}_i}} \right) + b + {\xi _i},\quad i = 1, \cdots ,M \hfill \\ \end{gathered} \right.\] 采用优化理论中的Largrane乘子法，得到增广函数 \[\begin{gathered} J\left( {{\mathbf{w}},b,{\mathbf{\xi }},{\mathbf{\alpha }}} \right) = \frac{1}{2}{{\mathbf{w}}^T}{\mathbf{w}} + \frac{C}{2}\sum\limits_{i = 1}^M {\xi _i^2} \hfill \\ \quad \quad \quad \quad \quad \quad - \sum\limits_{i = 1}^M {{\alpha _i}\left[ {{{\mathbf{w}}^T}{\mathbf{\Phi }}\left( {{{\mathbf{x}}_i}} \right) + b + {\xi _i} - {y_i}} \right]} \hfill \\ \end{gathered} \] 其中\[{\mathbf{\alpha }} = {\left( {{\alpha _1}, \cdots ,{\alpha _M}} \right)^T}\]为乘子向量。

增广函数对自变量求导得 \[\left\{ \begin{gathered} {\mathbf{w}} = \sum\limits_{i = 1}^M {{\alpha _i}\Phi \left( {{{\mathbf{x}}_i}} \right)} \hfill \\ \sum\limits_{i = 1}^M {{\alpha _i} = 0} \hfill \\ \left. \begin{gathered} {{\mathbf{w}}^T}{\mathbf{\Phi }}\left( {{{\mathbf{x}}_i}} \right) + b + {\xi _i} - {y_i} = 0 \hfill \\ {\alpha _i} = C{\xi _i} \hfill \\ \end{gathered} \right\}i = 1, \cdots ,M \hfill \\ \end{gathered} \right.\] 消除变量后得到矩阵方程 \[\left[ {\begin{array}{*{20}{c}} {\mathbf{\Omega }}&\vline & {\mathbf{1}} \\ \hline {{{\mathbf{1}}^T}}&\vline & 0 \end{array}} \right]\left[ \begin{gathered} {\mathbf{\alpha }} \hfill \\ b \hfill \\ \end{gathered} \right] = \left[ \begin{gathered} {\mathbf{y}} \hfill \\ 0 \hfill \\ \end{gathered} \right]\] 其中 \[{\mathbf{1}} = \left( {1, \cdots ,1} \right) \in {R^m}\] \[\left\{ {{\Omega _{ij}}} \right\} = {{\mathbf{\Phi }}^T}\left( {{{\mathbf{x}}_i}} \right){\mathbf{\Phi }}\left( {{{\mathbf{x}}_j}} \right) + \frac{{{\delta _{ij}}}}{C}\] \[y = {\left( {{y_1}, \cdots ,{y_M}} \right)^T}\] \[K\left( {{{\mathbf{x}}_i},{{\mathbf{x}}_j}} \right) = {{\mathbf{\Phi }}^T}\left( {{{\mathbf{x}}_i}} \right){\mathbf{\Phi }}\left( {{{\mathbf{x}}_j}} \right)\] 核函数的构造，可以用包含无限节点的d阶样条逼近 \[f\left( x \right) = \sum\limits_{i = 0}^d {{a_i}{x^i} + \int_0^a {a\left( t \right)\left( {x - t} \right)_ + ^ddt} } \] 其中 \[\left( {x - t} \right)_ + ^d = \left\{ \begin{gathered} 0\quad \quad \quad \quad x \leqslant t \hfill \\ {\left( {x - t} \right)^d}\quad \;\;x > t \hfill \\ \end{gathered} \right.\] 由此可以构造包含无限节点d阶样条的核： \[\begin{gathered} K\left( {{x_j},{x_i}} \right) = \int_0^a {\left( {{x_j} - t} \right)_ + ^d} \left( {{x_i} - t} \right)_ + ^ddt + \sum\limits_{r = 0}^d {x_i^rx_j^r} \hfill \\ \quad \quad \quad \quad = \sum\limits_{r = 0}^d {\frac{{C_d^r}}{{2d - 1 + 1}}{{\left( {{x_j} \wedge {x_i}} \right)}^{2d - r + 1}}} {\left| {{x_j} - {x_i}} \right|^r} \hfill \\ \quad \quad \quad \quad \;\; + \sum\limits_{r = 0}^d {x_i^rx_j^r} \hfill \\ \end{gathered} \] 依据最优化理论，通过调整正则化泛函因子向量，可以使支持向量机学习方法函数逼近具备良好的稳健性能。对于系统有野值的情况，具备良好的自适应性，而这是经典LS-SVM所不具备的。 2) 正则化因子向量在最小二乘支持向量机函数逼近中其非常重要的作用。正则化表现为对样本约束程度的体现，选择合适因子的主要依据包括经验、噪声水平及逼近或分类的需求等多种因素决定。通常在噪声方差较大的情况下，应适当放松样本数据对机器学习的约束，当噪声方差较小的时候，可以适当加重样本对机器学习的约束。 3) 理论上而言，不同核函数的选择通常不会改变支持向量机逼近或模式识别性能。然而，每种核函数都有自己的性态，使用时候必须清楚核函数参数调节对代价函数的影响，否则容易造成机器学习失败的情形。一般而言，当样本噪声方差较大时，选择的核函数应该尽量选择对邻域数据影响较宽的核函数，如无限节点样条核。反之应选择对邻域影响较为集中的核函数，如高斯核函数。