ch 07 支持向量机
零散知识点
- SVM 本质上是线性的,但是可以通过核函数把非线性数据弄成线性的、高维的数据。
- Kernel function (干嘛的?) —— 把数据在高维弄成线性的,输入两个低维向量,输出内积(即他们的关系)
- As long as the kernel matrix corresponding to a symmetric function is semi-positive definite, it can be used as a kernel function.
每一组有自己的均值向量 和协方差矩阵 。
判别准则是比较两组的 马氏距离(Mahalanobis Distance):
判别样本 属于哪一类,取决于:
假设 ,此时判别准则可以简化为:
展开计算后,最终得到一个 线性判别函数: 其中,权重向量 w 和偏置 定义为:
判别规则为:$ \text{若 } g(x) > 0, \text{ 则 } x \text{ 属于组 1;否则属于组 2。}$
定义:kNN 是一种简单且常用的监督学习算法。
机制:
欧几里得距离(Euclidean Distance):
曼哈顿距离(Manhattan Distance):
切比雪夫距离 (Chebyshev Distance):
闵可夫斯基距离 (Minkowski Distance):
公式:
特殊情况:
无偏性:如果估计量的期望值等于被估参数,即为无偏估计量。公式举例:
有效性:在所有无偏估计量中,方差最小的估计量称为有效估计量,具有统计效率最高。
一致性:随着样本容量增加,估计量逐渐趋近于真实值。
应用场景:
内容:
假设基本分类器的错误率彼此独立,根据霍夫丁不等式(Hoeffding inequality),集成分类器的错误率为:
以上公式表明,在 的情况下,随着集成分类器数量 T 的增加,集成分类器的错误率会指数级下降,最终趋于 0。
关键假设: 基本分类器的错误彼此独立。
这部分内容详细介绍了多元概率分布函数的定义和相关概念,以下是逐条解释:
随机向量是单一随机变量的推广,允许同时描述多个随机变量之间的联合概率特性。
矩阵
向量
向量的长度
在什么情况下使用 classification clustering regression 模型?
:物理意义:给定输入样本 x,其真实类别为 的概率。