加载中...

人工智能基础复习笔记

发表于2025-06-01|更新于2025-06-01|AlgorithmReview

|浏览量:

人工智能

聚类分析——无监督

什么是聚类分析：

问题：给你一堆样本，如何通过样本间可能存在的联系将这些样本分为不同的类别？
这些样本没有原本正确的类别，这种我们称为无监督（无标记的样本），希望寻找样本中存在的自然的聚类。

001

而对于原本就有标记的聚类行为我们称为分类，希望能够将混在一起的不同样本区分开来，这些样本的某写特征可能很相似，但是因为是不同标记，因此我们需要分开这些样本，这里与聚类的行为完全不同！

002

对于一个详细的实物，我们如何使用计算机对他们进行处理，这就要求我们对实物的本体或者特征抽象为一个个特征向量，通过特征向量的距离来表征相似性！所以，如何抽象出特征向量决定了聚类的准确性。

003

上面的例子就体现出了特征的选取在聚类中起到至关重要的作用！

特征相似性的测度和聚类准则

最常见的，我们使用欧氏距离表征两个特征向量之间的距离：

$$
d(x, y) = \sqrt{(x - y)^T (x - y)} = \sqrt{\sum_{i=1}^n (x_i - y_i)^2}
$$

注意，这里的计算需要在同一个量纲下。

004

在第一种情况下，你会发现学生身高对欧氏距离的影响在体重面前完全不值一提，就算此时身高相差1m对于两个学生对应特征向量之间的欧氏距离影响也微乎其微；而第二种，两种特征对欧氏距离都有较大的影响因子（用于表征该特征对欧氏距离的影响力）。

对于上面的这个问题，推出了马氏距离归一化样本特征之间的相关性：

$$
d(x, y) = \sqrt{(x - y)^T S^{-1} (x - y)}
$$

欧式距离中，完全是特征向量中对应分量相乘，再相加得到，如果某一项的值非常大，那么其值就会掩盖值小的一项所起到的作用，这是欧式距离的不足；当采用马氏距离，就可以屏蔽这一点，因为相关性强的一个分量，对应于协方差矩阵C中对角线上的那一项的值就会大一些。再将这一项取倒数，减小该影响。

通过上面的描述你也可以发现，马氏距离对特征向量中每一个分量都做了归一化，并且由于协方差的量纲与原始分量相同，所以马氏距离的结果与原始数据的量纲无关。

005

左图是欧氏距离，右图是马氏距离。左图中，A, B到均值的距离相同，因此都在同一个圆上，忽略了数据的分布（量纲）的不同；右图中，通过协方差矩阵调整了$X_{1}, X_{2}$从而使得虽然A, B之间的马氏距离不同但是更符合数据的分布。

006

上图中更是反映出，欧氏距离的等高线是以原点为中心的圆分布，右边的马氏距离等高线与数据的分布相似。

除了上述两种相似性的测量方式，还有：

角度相似性函数

007

用于表征两个特征向量之间的夹角大小，这样表述相似性有两个好处：

当特征空间进行尺度变换，如放大缩小时，夹角保持不变；
当坐标系旋转，或者坐标变换，如仿射变换，双线性变换，平方变换、双平方变换时，夹角不变；

Tanimoto测度：

008

其中x和z的分量用二值来表示，0表示不具有某种特征，1表示具有某种特征。这样就可以表示为所有特征中共有的特征占比了。
表示出两个特征向量之间的相似度后，我们需要定义一个聚类准则函数，使聚类问题变成一个最优化问题，比如说误差平方和：

$$
J = \sum_{j=1}^{c} \sum_{x \in S} |x - m_j|^2
$$

$m_{j}$是定义的质心，使聚类后的同类之间到质心的距离和最小，质心通过平均求得。

分级聚类

009

0010

类间距离准则：

最近邻域：
两个不同的类别之间最近的两个样本之间的距离代表两个类别之间的距离；
最远邻域：
两个不同的类别之间最远的两个样本之间的距离代表两个类别之间的距离；
平均邻域：
两个类别的质心间的距离表示两个类别之间的距离

0011

以最近邻域为例（右上），先初始化所有样本各为一个聚类，然后计算不同类之间的距离，将距离最近的两个类进行合并，之后重新计算类之间的距离，合并后的类计算距离时取类内样本最小距离；按照如此继续聚类合并直到只剩下需求的类别数量；

通过上面的聚类结果可视化能发现，由于样本中存在一个噪声，即距离较远的样本，无论如何计算最近距离该样本都会被判定为一个类，而相距较近的不同类反而被误判为同类。

0012

举个例子🤓 ：

0013

答案见P43。

K均值聚类法

0014

一个比较明显跟分级聚类不同的地方是，类间的距离不是取样本间距离作为判断依据，而是取样本的均值定义为类别重心，求样本到重心的距离来判断该样本属于哪个类别；

问题:

如果k值的选取不正确，那么聚类错误；
高度依赖于初始值选取；
更适用“球形”分布的数据，难处理非球形聚类；

0015

如果一开始的中心取在上下两端则会出现右图的分类情况，因此Kmeans聚类对初始值的选择较敏感；

尝试下面题目：

0016

基于密度峰值的聚类方式

由于Kmeans只适合球状分布，因此针对非球状分布推出了密度峰值聚类；

0017

0018

局部密度定义为$\rho_i = \sum_j \chi(d_{ij} - d_c)$，其中$d_{ij}$表示数据对之间的距离，$d_{c}$为距离阈值，如果距离小于阈值则$\rho_{i}$加一，这样可以计算出局部的密度；

0019

0020

试着解决以下问题吧🤓

0021

文章作者: Karina

文章链接: https://uestc-xtkx.github.io/2025/06/01/study/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Katarina's diary！

相关推荐

Adapose——跨环境的人体关键点识别

AdaPose —— Yunjiao Zhou文献综述《AdaPose: Towards Cross-Site Device-Free Human Pose Estimation with Commodity WiFi》独特的创新思想：不同域之间的差异如何泛化或者说对齐？本篇论文不按照传统方式在特征空间分布上进行对齐，而是**提出从”映射规则”**上进行统一！文章将整个模型分为三层：输入域中采集的CSI、中间层的特征空间、输出估计关键点的坐标，其中的映射规则包括将CSI信息映射成一个特征、将CSI信息映射成姿态关键点的坐标。本文认可不同的域（源域、目标域）是存在本质差别的，文中通过 $D_{input}$、$D_{feature}$ 以及 $D_{output}$ 分别表示不同域最原始的差异（数据）、特征提取后的分布差异（缩放）、姿态估计的分布差异，且这些差异是必然存在的。传统方式：特征空间分布对齐，是通过调整 $D_{feature}$，将不同域采集的具有 $D_{input}$ 差异的CSI映射到相同的特征空间分布上 $D_{feature} = 0$； ...

Unsupervised adversarial domain adaptation——对抗生成跨域泛化

Unsupervised Adversarial Domain Adaptation —— Han Zou文献综述《Robust WiFi-enabled Device-free Gesture Recognition via Unsupervised Adversarial Domain Adaptation》研究目的 (Research Objective) 本研究旨在解决现有WiFi手势识别系统在实际部署中的核心痛点：环境动态性导致的模型失效问题。当系统部署到新环境（如从会议室移到办公室）时，无需重新收集标注数据和训练新模型，即可保持高识别准确率。本文的创新点：数据创新：利用CSI相位差作为输入摒弃了传统方法中易受噪声影响的CSI幅度，转而使用接收端天线对之间的CSI相位差来构建数据帧。相位差能有效消除由硬件（如载波频率偏移CFO、采样频率偏移SFO）引入的固定相位偏移，从而提取出更能反映人体动作的”干净”信号，对微小手势更敏感。多场景下的如何实现模型泛化：已知一个正常运行的模型分为三层，CSI原始数据、特征提取和分类器输出姿态。本文认为不同域下相同的姿...

MultiFormer——基于迭代的高准确率姿态估计

MultiFormer —— Wenhui Xiong研究目的：将在一个场景训练的姿势识别模型扩展到不同的场景中；可能的方法（建模上）：将不同的场景抽象为一个样本，多个场景训练（小样本学习）；将时间、频率、空间特征抽象为张量，添加场景布局的影响；根据协议提出的标准室内WiFi建模，抽象为token AI学习算法提高训练的模型对未知环境的适应能力，增强泛化能力 Keypoints: Cross-Scene Adaptive environment dynamic environment robustness Ada boost Meta-Learning Data Augmentation for Generalization 对于当前研究的问题：初始数据检索与清理：CSI是否会影响估计，环境中的信道很多，直射信道是否会影响反射或散射信道？仅考虑了CSI幅值用于姿态估计，忽略相位导致识别效果下降？将CSI提取出feature，通过PAPM得到PAM和PCM，但是都是2维空间域中的识别，忽略了深度，如果多目标的姿态有重叠，是否影响估计的效果？使用图像信息作...

Densepose——基于UV坐标的高精度姿态估计

DensePose From WIFI —— Jiaqi Gen文献综述：《DensePose From WiFi》目的：论文旨在解决传统人体姿态估计方法面临的三大核心问题：环境限制：RGB 相机在光照不佳或存在遮挡时性能会急剧下降；成本与功耗：LiDAR 和雷达等传感器价格昂贵且功耗高，难以在家庭等日常场景普及；隐私问题：在浴室、卧室等私密空间部署摄像头会引发严重的隐私担忧。论文的最终目的是开发一种低成本、易于部署、保护隐私且对光照和遮挡鲁棒的新型人体感知技术，为智能家居、健康监护等应用铺平道路。遇到的困难： CSI是一维数据，与空间域的信息没有相关性，不像图片，每一个像素点都是是空间域的一个映射；前人没有相关研究，都是基于TOF、AOA的中心定位；研究方法：大致流程如下：首先采集信号的CSI，对CSI的幅值和相位进行预处理，包括采样、插值以及数据矫正。之后通过一个双支编码器，将幅值和相位vector编码为2D的feature maps，对应图像姿态识别中的原始图像（这里做了一个域转换：从WIFI信号域 → Feature Maps特征域； 1D...

面向WiFi-Sensing的文献总结

SVM——Python代码实现以及解析

支持向量机(SVM)原理详解与代码解析一、SVM算法原理详解1. 核心思想支持向量机通过最大化分类间隔实现最优分类，其数学本质是求解一个凸二次优化问题。核心思想包括：最大间隔原则：寻找使类别间距离最大的分类超平面支持向量：决定分类边界的关键样本点核技巧：通过核函数将低维不可分数据映射到高维空间 2. 数学基础(1) 线性可分情况$$\min_{w,b} \frac{1}{2}||w||^2 \quad \text{s.t.} \quad y_i(w^T x_i + b) \geq 1$$ $ w $：超平面法向量 $ b $：偏置项 $ y_i \in {-1,1} $：类别标签 (2) 非线性情况（使用核函数）$$K(x_i,x_j) = \phi(x_i)^T\phi(x_j)$$ 常用核函数：线性核：$ K(x,y) = x^Ty $ 多项式核：$ K(x,y) = (x^Ty + c)^d $ RBF核：$ K(x,y) = e^{-\gamma ||x-y||^2} $ (3) 正则化参数C$$\min_{w,...