DensePose From WIFI —— Jiaqi Gen

文献综述:《DensePose From WiFi》

目的:论文旨在解决传统人体姿态估计方法面临的三大核心问题:

  1. 环境限制:RGB 相机在光照不佳或存在遮挡时性能会急剧下降;
  2. 成本与功耗:LiDAR 和雷达等传感器价格昂贵且功耗高,难以在家庭等日常场景普及;
  3. 隐私问题:在浴室、卧室等私密空间部署摄像头会引发严重的隐私担忧。
    论文的最终目的是开发一种低成本、易于部署、保护隐私且对光照和遮挡鲁棒的新型人体感知技术,为智能家居、健康监护等应用铺平道路。

遇到的困难

  • CSI是一维数据,与空间域的信息没有相关性,不像图片,每一个像素点都是是空间域的一个映射;
  • 前人没有相关研究,都是基于TOF、AOA的中心定位;

研究方法
大致流程如下:首先采集信号的CSI,对CSI的幅值和相位进行预处理,包括采样、插值以及数据矫正。之后通过一个双支编码器,将幅值和相位vector编码为2D的feature maps,对应图像姿态识别中的原始图像(这里做了一个域转换:从WIFI信号域 → Feature Maps特征域; 1D → 2D)。最后类似于图像姿态识别,将2D的feature maps作为输入,得到最后的UV coordinates。

  1. 数据预处理:对原始的信道状态信息(CSI)进行“相位净化”(Phase Sanitization),包括相位解包裹(unwrapping)、中值/均值滤波去噪和线性拟合,以获得稳定可靠的相位信息。
       Img
  2. 模态转换网络(Modality Translation Network):设计了一个双分支(幅度和相位)编码器-解码器网络。将CSI展平后输入编码器而不是通过卷积压缩,因为可能每一对收发天线的一个CSI都可以表征完整的空间信息。编码器使用MLP(而非CNN)将1D的CSI张量(150x3x3)映射到潜在空间,然后融合并重塑为2D特征图(24x24),再通过卷积和反卷积层上采样,最终输出一个模拟图像域的3x720x1280特征图。
       Img
  3. WiFi-DensePose RCNN:将上述生成的2D特征图输入到一个修改版的 DensePose-RCNN 架构中。该架构采用 ResNet-FPN 作为骨干网络,并包含两个并行的预测头:一个用于预测24个身体部位的UV坐标(DensePose Head),另一个用于预测17个人体关键点的热力图(Keypoint Head),以提供额外的监督和约束。
       Img
  4. 迁移学习:为了加速训练并提升性能,论文采用了一种教师-学生框架。一个在COCO数据集上预训练的图像版 DensePose 模型作为“教师”,指导“学生”(即本文的WiFi模型)使其在多个层级的特征图上与教师模型的输出尽可能相似(通过MSE损失)。
  5. 损失函数:总损失包含目标检测损失(分类 Lcls 和边界框回归 Lbox)、DensePose损失 Ldp(分割和UV回归)、关键点损失 Lkp 和迁移学习损失 Ltr

创新点

  1. 首创性任务:首次提出并成功实现了仅使用WiFi信号进行稠密人体姿态估计的任务,将WiFi感知的粒度从稀疏关键点提升到了稠密表面级别。
  2. 突破物理限制:通过深度学习模型,成功地从理论上定位精度仅为0.5米的WiFi信号中,恢复出了远超此精度的稠密人体姿态,突破了传统ToF/AoA方法的物理瓶颈。
  3. 新颖的网络架构
    • 模态转换网络:创新性地使用MLP而非CNN来处理CSI数据的3x3维度,认为其代表的是全局场景摘要而非局部空间信息,并通过编码器-解码器结构将其转换为类图像的2D特征图。
    • 相位净化方法:提出了一套有效的相位处理流程,充分挖掘了通常被忽视的CSI相位信息的价值。
  4. 有效的训练策略:通过引入关键点检测分支和从图像模型迁移学习,显著提升了模型的训练效率和最终性能,为解决数据匮乏问题提供了新思路。

研究结果

  • 定量结果:在“相同布局”(Same Layout)的测试协议下,模型在人体检测(AP@50=87.2)和稠密姿态估计(dpAP·GPS@50=79.3)上取得了不错的效果,表明其能有效定位人体并估计大致姿态。但在更严格的指标(如AP@75, dpAP·GPS@75)上性能下降,说明对肢体等细节的估计仍有不足。
  • 定性结果:可视化结果(图9, 10)显示,WiFi模型的预测结果与基于图像的DensePose结果在主体轮廓和主要关节位置上具有较高的一致性,验证了方法的可行性。
  • 消融实验:证明了相位信息、关键点分支和迁移学习均能有效提升模型性能。特别是关键点分支对提升细节(如肢体)的估计效果显著。
  • 跨域泛化:在“不同布局”(Different Layout)协议下,性能大幅下降(AP从43.5降至27.3),表明模型对环境变化非常敏感,泛化能力是当前的主要瓶颈。

可能的改进之处

  1. 泛化能力:最大的问题是模型在不同环境布局下的泛化性能差。未来工作需要收集更多样化的多布局数据,或研究更鲁棒的域自适应/域泛化方法。
  2. 3D姿态与形状:论文目前输出的是2D UV坐标,未来可探索直接从WiFi信号恢复3D人体姿态甚至形状(如SMPL模型)。
  3. 实时性与轻量化:当前模型训练耗时长(约80小时),推理速度未提及。未来可研究模型压缩或设计更轻量级的网络以适应边缘设备。
  4. 多人场景与遮挡:论文指出在三人及以上或罕见姿态场景下性能会下降,需要更强大的网络或数据增强策略来解决。
  5. 数据依赖:模型依赖于用图像模型生成的伪标签进行训练,这引入了误差。未来可探索自监督或弱监督学习方法。