支持向量机(理解、推导、matlab例子)

2022-07-20 15:34 480人阅读评论(0)

概念

支持向量机是数据挖掘中的一项新技术，是借助最优化方法来解决机器学习的新工具，成为克服“维数灾难”和“过学习”等困难的强有力手段。其主要思想是找到一个超平面，使得它能够尽可能多地将两类数据点正确分开，同时使分开地两类数据点距离分类面最远。

基本原理和推导(硬间隔)

设数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}\in(\Omega\times Y)$ ， $x_i$ 为样本，有很多特征（是一个向量）， $y_i$ 为分类结果， $y_i\in Y=\{-1,1\}$ 。
现在我们需要得到一个决策函数 $g (x)$ ，从而得到分类函数 $f (x) = s g n (g (x))$ 对未知样本进行分类。

决策方程为 $y(x)=\omega^Tx+b$

{\begin{cases} y (x_{i}) > 0 & y_{i} = 1 \\ y (x_{i}) < 0 & y_{i} = - 1 \end{cases}

$\begin{cases} y(x_i)>0&y_i=1\\ y(x_i)<0&y_i=-1 \end{cases}$ \Rightarrow y_iy(x_i)>0

{y (x_{i}) > 0 y (x_{i}) < 0 y_{i} = 1 y_{i} = - 1 \Rightarrow y_{i} y (x_{i}) > 0

该模型地目标是要找到一个超平面 $\omega^Tx+b=0$ ，使得一群数据点中距离该平面最近的点到该平面的距离最大，即

\arg_{ω, x} max {\frac{1}{| | ω | |} min_{i} [y_{i} (ω^{T} x_{i} + b)]}

$\begin{equation} \arg_{\omega,x}\max\{\frac{1}{||\omega||}\min_i[y_i(\omega^Tx_i+b)]\} \end{equation}$

ar g_{ω, x} max {\frac{1}{∣∣ ω ∣∣} i min [y_{i} (ω^{T} x_{i} + b)]}

注：点到平面的距离：

\frac{|\omega^Tx_i+b|}{||\omega||}

对于决策方程，可以通过放缩 $\omega，b$ 使得其结果 $|y|\ge1$ ，所以 $y_i(\omega^Tx_i+b)\ge1$ ，(1)式转化为 $\arg_{\omega,x}\max\frac{1}{||\omega||}$ 。

\begin{aligned} 目 标 ： & max_{ω, b} \frac{1}{| | ω | |} \\ 约 束 条 件 ： & y_{i} (ω^{T} x_{i} + b) \geq 1 \end{aligned}

$\begin{align*} 目标：&\max_{\omega,b}\frac{1}{||\omega||}\\ 约束条件：&y_i(\omega^Tx_i+b)\ge1 \end{align*}$ \Rightarrow

\begin{aligned} 目 标 ： & min_{ω, b} \frac{1}{2} | | ω | |^{2} \\ 约 束 条 件 ： & y_{i} (ω^{T} x_{i} + b) \geq 1 \end{aligned}

$\begin{align*} 目标：&\min_{\omega,b}\frac{1}{2}||\omega||^2\\ 约束条件：&y_i(\omega^Tx_i+b)\ge1 \end{align*}$

目标： 约束条件： ω, b max \frac{1}{∣∣ ω ∣∣} y_{i} (ω^{T} x_{i} + b) \geq 1 \Rightarrow 目标： 约束条件： ω, b min \frac{1}{2} ∣∣ ω ∣ ∣^{2} y_{i} (ω^{T} x_{i} + b) \geq 1

注：此时的超平面称为规范超平面
此目标规划是凸优化（二次规划），数据量和维数较少时，可以用matlab中的quadprog函数求解

引入拉格朗日函数，把带约束问题转化为无约束问题：

\begin{aligned} min_{ω, b} max_{α} L (ω, b, α) \\ α_{i} \geq 1, i = 1, . . ., n \end{aligned}

$\begin{aligned} \min_{\omega,b}\max_{\alpha}L(\omega,b,\alpha)\\ \alpha_i\ge1,i=1,...,n \end{aligned}$

ω, b min α max L (ω, b, α) α_{i} \geq 1, i = 1, ..., n

其中，

L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\sum_{i=1}^n\alpha_i(1-y_i(\omega^Tx_i+b))

，

\alpha_i

是拉格朗日乘子
注：可以这样理解两个问题是等价的：
若

1-y_i(\omega^Tx_i+b)>0,\max L=\frac{1}{2}||\omega||^2+\infty=\infty

若

1-y_i(\omega^Tx_i+b)\le0,\max L=\frac{1}{2}||\omega||^2+0=\frac{1}{2}||\omega||^2

所以

\min_{\omega,b}\max_{\alpha}L(\omega,b,\alpha)=\min_{\omega,b}\{\infty,\frac{1}{2}||\omega||^2\}=\min_{\omega,b}\frac{1}{2}||\omega||^2

，而且无约束问题的解

(\omega,b)

满足

1-y_i(\omega^Tx_i+b)\le0

上面的无约束问题的强对偶问题为：

\begin{aligned} max_{α} min_{ω, b} L (ω, b, α) \\ α_{i} \geq 1, i = 1, . . ., n \end{aligned}

$\begin{aligned} \max_{\alpha}\min_{\omega,b}L(\omega,b,\alpha)\\ \alpha_i\ge1,i=1,...,n \end{aligned}$

α max ω, b min L (ω, b, α) α_{i} \geq 1, i = 1, ..., n

由

{\begin{cases} \frac{\partial L}{\partial b} = 0 \\ \frac{\partial L}{\partial ω} = 0 \end{cases}

得到

\sum_{i=1}^n\alpha_iy_i=0,\omega=\sum_{i=1}^n\alpha_ix_iy_i

，代入优化问题，得

{\begin{cases} \sum_{i = 1}^{n} α_{i} y_{i} = 0 \\ α_{i} \geq 0 \end{cases}

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$\omega^*=\sum_{i=1}^n\alpha_i^*x_iy_i$

由KKT互补条件知

$\alpha_i^*(1-y_i(\omega^*\cdot x_i+b^*))=0$
由此推断可知，当 $x_i$ 为支持向量时（ $1-y_i(\omega^*\cdot x_i+b^*)=0$ ），对应得 $\alpha_i$ 为正；当 $x_i$ 不为支持向量时（ $1-y_i(\omega^*\cdot x_i+b^*)<0$ ），对应得 $\alpha_i$ 为0；
并可以计算得
$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x_j)$
注：支持向量可以理解为支撑起超平面的点，如果再增加一些边界之外的点，是不影响超平面的，即超平面由支持向量决定。如下图：

构造分类超平面 $w^*\cdot x+b^*=0$ ，并由此可以得到

决策方程
$g(x)=\omega^*\cdot x+b^*=\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*$
分类函数
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*)$

软间隔

当训练集的两类样本近似可分时，即允许存在不满足约束条件 $y_i(\omega\cdot x+b)\ge1$ 的样本点，但仍然能使用超平面进行划分。即在两个分类边界 $\omega\cdot x+b=±1$ 之间允许出现样本点。

为了解决这种情况，引入松弛变量 $\xi_i\ge0,i=1,...,n$ ，得到“软化”的约束条件

$y_i(\omega\cdot x+b)\ge1-\xi_i,i=1,...,n$
避免 $\xi_i$ 取太大的值，为此要在目标函数中对它进行惩罚，得到如下的二次规划问题：

\begin{aligned} min \frac{1}{2} | | ω | |^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s . t . {\begin{cases} y_{i} (ω \cdot x + b) \geq 1 - ξ_{i} \\ ξ_{i} \geq 0, i = 1, . . ., n \end{cases} \end{aligned}

$\begin{align*} &\min\quad\frac{1}{2}||\omega||^2+C\sum_{i=1}^n\xi_i\\ &s.t.\quad \begin{cases} y_i(\omega\cdot x+b)\ge1-\xi_i\\ \xi_i\ge0,i=1,...,n \end{cases} \end{align*}$

min \frac{1}{2} ∣∣ ω ∣ ∣^{2} + C i = 1 \sum n ξ_{i} s . t . {y_{i} (ω \cdot x + b) \geq 1 - ξ_{i} ξ_{i} \geq 0, i = 1, ..., n

注：

C

越大，

\xi_i

越小，说明要求分类得更准确，

C\to\infty

时，

\xi_i=0

，就是绝对准确，即硬间隔；

C

越小，说明有更大的错误容忍。

C

是一个常数，可以用K折交叉验证来选择合适的

C

。

和硬间隔的步骤一样，最终得优化问题：

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - \sum_{i = 1}^{n} α_{i} \\ {\begin{cases} \sum_{i = 1}^{n} α_{i} y_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1, . . ., n \end{cases} \end{aligned}

$\begin{align*} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_j y_i y_j(x_i\cdot x_j)-\sum_{i=1}^n\alpha_i \\ &\begin{cases} \sum_{i=1}^n\alpha_iy_i=0\\ 0\le\alpha_i\le C,i=1,...,n \end{cases} \end{align*}$

α min \frac{1}{2} i = 1 \sum n j = 1 \sum n α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - i = 1 \sum n α_{i} {\sum_{i = 1}^{n} α_{i} y_{i} = 0 0 \leq α_{i} \leq C, i = 1, ..., n

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$\omega^*=\sum_{i=1}^n\alpha_i^*x_iy_i$
$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_i (x_i\cdot x_j)$
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_i(x_i\cdot x)+b^*)$

核函数

当两类样本点得重合区域很大时，无法使用线性划分。但我们可以将样本点映射到更高维得空间，以使得两类样本点可分。如下：

此时得目标就是找到一种变换的方法 $\phi(x)$

此时得二次规划问题：

$KaTeX parse error: {align} can be used only in display mode.$
核函数 $K(x_i,x_j)=\phi(x_i)\cdot\phi(x_j)$ ，可以避免在高维特征空间进行复杂得运算，不同得核函数形成不同得算法。
主要的核函数：

线性内核函数 $K(x_i,x_j)=x_i\cdot x_j$
多项式核函数 $K(x_i,x_j)=(x_i\cdot x_j+1)^q$
径向基核函数（高斯核函数，RBF） $K(x_i,x_j)=\exp \{-\frac{||x_i-x_j||^2}{2\sigma^2}\}$
和硬间隔的步骤一样，最终得优化问题：

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{n} α_{i} \\ {\begin{cases} \sum_{i = 1}^{n} α_{i} y_{i} = 0 \\ α_{i} \geq 0, i = 1, . . ., n \end{cases} \end{aligned}

$\begin{align*} &\min_{\alpha}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha_i\alpha_j y_i y_jK(x_i\cdot x_j)-\sum_{i=1}^n\alpha_i \\ &\begin{cases} \sum_{i=1}^n\alpha_iy_i=0\\ \alpha_i\ge0,i=1,...,n \end{cases} \end{align*}$

α min \frac{1}{2} i = 1 \sum n j = 1 \sum n α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - i = 1 \sum n α_{i} {\sum_{i = 1}^{n} α_{i} y_{i} = 0 α_{i} \geq 0, i = 1, ..., n

求解上述最优化问题得 $\alpha^*=[\alpha_1^*,\alpha_2^*,...,\alpha_n^*]^T$ ，计算

$b^*=y_j-\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x_j)$
$f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x)+b^*)$

核函数和软间隔结合

当映射到高维空间也不能硬性划分时，也需要对约束条件进行软化。
同理得到优化问题

\begin{aligned} min_{α} \frac{1}{2} \sum_{i = 1}^{n} \sum_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - \sum_{i = 1}^{n} α_{i} \\ {\begin{cases} \sum_{i = 1}^{n} α_{i} y_{i} = 0 \\ 0 \leq α_{i} \leq C, i = 1, . . ., n \end{cases} \end{aligned}

α min \frac{1}{2} i = 1 \sum n j = 1 \sum n α_{i} α_{j} y_{i} y_{j} K (x_{i} \cdot x_{j}) - i = 1 \sum n α_{i} {\sum_{i = 1}^{n} α_{i} y_{i} = 0 0 \leq α_{i} \leq C, i = 1, ..., n

b^*=y_j-\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x_j)

f(x)=sgn(g(x))=sgn(\sum_{i=1}^n\alpha_i^*y_iK(x_i\cdot x)+b^*)

一个matlab例子

a0=load('fenlei.txt');
a=a0';
b0=a(:,1:27);%已分类的数据，一列就是一个样本点
dd0=a(:,28:end);%未分类的数据
[b,ps]=mapstd(b0);%b是已分类数据标准化处理后的矩阵，sp是标准化处理的设置
dd=mapstd('apply',dd0,ps);%未分类的数据按照上述标准化处理
group=[ones(20,1);2*ones(7,1)];%已知样本点的类别标号
s=fitcsvm(b',group);%训练向量机
sv_index=s.SupportVectorLabels%返回支持向量的标号
beta=s.Alpha%权系数
bb=s.Bias%常数项
check=predict(s,b')%验证已知样本点
err_rate=1-sum(group==check)/length(group)%计算已知样本点的错判率
solution=predict(s,dd')%对待判样本点进行分类

转载：https://blog.csdn.net/weixin_45775970/article/details/125881453

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

支持向量机(理解、推导、matlab例子)

概念

基本原理和推导(硬间隔)

软间隔

核函数

核函数和软间隔结合

一个matlab例子

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场