DensePose From WIFI —— Jiaqi Gen

文献综述：《DensePose From WiFi》

目的：论文旨在解决传统人体姿态估计方法面临的三大核心问题：

环境限制：RGB 相机在光照不佳或存在遮挡时性能会急剧下降；
成本与功耗：LiDAR 和雷达等传感器价格昂贵且功耗高，难以在家庭等日常场景普及；
隐私问题：在浴室、卧室等私密空间部署摄像头会引发严重的隐私担忧。
论文的最终目的是开发一种低成本、易于部署、保护隐私且对光照和遮挡鲁棒的新型人体感知技术，为智能家居、健康监护等应用铺平道路。

遇到的困难：

CSI是一维数据，与空间域的信息没有相关性，不像图片，每一个像素点都是是空间域的一个映射；
前人没有相关研究，都是基于TOF、AOA的中心定位；

研究方法：
大致流程如下：首先采集信号的CSI，对CSI的幅值和相位进行预处理，包括采样、插值以及数据矫正。之后通过一个双支编码器，将幅值和相位vector编码为2D的feature maps，对应图像姿态识别中的原始图像（这里做了一个域转换：从WIFI信号域 → Feature Maps特征域； 1D → 2D）。最后类似于图像姿态识别，将2D的feature maps作为输入，得到最后的UV coordinates。

数据预处理：对原始的信道状态信息（CSI）进行“相位净化”（Phase Sanitization），包括相位解包裹（unwrapping）、中值/均值滤波去噪和线性拟合，以获得稳定可靠的相位信息。
模态转换网络（Modality Translation Network）：设计了一个双分支（幅度和相位）编码器-解码器网络。将CSI展平后输入编码器而不是通过卷积压缩，因为可能每一对收发天线的一个CSI都可以表征完整的空间信息。编码器使用MLP（而非CNN）将1D的CSI张量（150x3x3）映射到潜在空间，然后融合并重塑为2D特征图（24x24），再通过卷积和反卷积层上采样，最终输出一个模拟图像域的3x720x1280特征图。
WiFi-DensePose RCNN：将上述生成的2D特征图输入到一个修改版的 DensePose-RCNN 架构中。该架构采用 ResNet-FPN 作为骨干网络，并包含两个并行的预测头：一个用于预测24个身体部位的UV坐标（DensePose Head），另一个用于预测17个人体关键点的热力图（Keypoint Head），以提供额外的监督和约束。
迁移学习：为了加速训练并提升性能，论文采用了一种教师-学生框架。一个在COCO数据集上预训练的图像版 DensePose 模型作为“教师”，指导“学生”（即本文的WiFi模型）使其在多个层级的特征图上与教师模型的输出尽可能相似（通过MSE损失）。
损失函数：总损失包含目标检测损失（分类 Lcls 和边界框回归 Lbox）、DensePose损失 Ldp（分割和UV回归）、关键点损失 Lkp 和迁移学习损失 Ltr。

创新点

首创性任务：首次提出并成功实现了仅使用WiFi信号进行稠密人体姿态估计的任务，将WiFi感知的粒度从稀疏关键点提升到了稠密表面级别。
突破物理限制：通过深度学习模型，成功地从理论上定位精度仅为0.5米的WiFi信号中，恢复出了远超此精度的稠密人体姿态，突破了传统ToF/AoA方法的物理瓶颈。
新颖的网络架构：
- 模态转换网络：创新性地使用MLP而非CNN来处理CSI数据的3x3维度，认为其代表的是全局场景摘要而非局部空间信息，并通过编码器-解码器结构将其转换为类图像的2D特征图。
- 相位净化方法：提出了一套有效的相位处理流程，充分挖掘了通常被忽视的CSI相位信息的价值。
有效的训练策略：通过引入关键点检测分支和从图像模型迁移学习，显著提升了模型的训练效率和最终性能，为解决数据匮乏问题提供了新思路。

研究结果：

定量结果：在“相同布局”（Same Layout）的测试协议下，模型在人体检测（AP@50=87.2）和稠密姿态估计（dpAP·GPS@50=79.3）上取得了不错的效果，表明其能有效定位人体并估计大致姿态。但在更严格的指标（如AP@75, dpAP·GPS@75）上性能下降，说明对肢体等细节的估计仍有不足。
定性结果：可视化结果（图9, 10）显示，WiFi模型的预测结果与基于图像的DensePose结果在主体轮廓和主要关节位置上具有较高的一致性，验证了方法的可行性。
消融实验：证明了相位信息、关键点分支和迁移学习均能有效提升模型性能。特别是关键点分支对提升细节（如肢体）的估计效果显著。
跨域泛化：在“不同布局”（Different Layout）协议下，性能大幅下降（AP从43.5降至27.3），表明模型对环境变化非常敏感，泛化能力是当前的主要瓶颈。

可能的改进之处：