- 2D图像或2D关键点数据中恢复
3D
人体姿势和形状的方法。一种常见的方法是使用人体模型的参数来表示姿势和形状,例如SMPL
模型。然后,利用回归或优化技术来解决这个问题。- 回归方法:通过训练一个模型,将
2D
图像或关键点作为输入,直接预测出人体模型的参数,包括姿势和形状参数。这个过程可以看作是从2D
数据到3D
参数的一个直接映射。 - 优化方法:另一种方法是利用优化技术,在给定的
2D
数据下,通过调整人体模型的参数来最小化与观测数据之间的重投影误差。通常,这个过程涉及到一个迭代优化算法,不断地调整模型参数直到达到最小化误差的目标。
- 回归方法:通过训练一个模型,将
- Motivation
- 解决现有方法的
mesh alignment
的问题
- 解决现有方法的
- Challenge
- 建模人体为姿势参数
$(pose) θ$ 和$(shape) β$ 两种参数,姿势参数是一个$24\times3$ 的矩阵。形状参数是一个长度为$10$ 的向量 - SMPL模型定义了从人体参数到身体网格的映射
$\mu (θ, β)$ ,body mesh
定义为$M$ ,维度为$6982\times3$ ,对一个给定的mesh
$M$ ,我们可以通过一个预训练好的回归器$W$ 回归一个3D Body Joints
:$J=WM$
- 我们想从观测到的值y反推影响它的隐变量
- 即我们想从图片的
2D
关键点等信息恢复出SMPL
的参数${θ, β}$ - 一般通过优化的手段解决这个问题,但是最小化损失函数实现这个目标,现在输入是2D图片I和对应SMPL估算得到的两个系数值
${θ, β}$ ,我们要在观测值$y$ 的guidance下改进这两个SMPL
系数。
- 使用
6D
表示3D rotation
-
inverse
的隐变量$x_0$ 设置维度为$144$ 维的向量 -
denosing model
由3层MLP
组成,在时间维度$t$ 和特征维度$s$ 上设置有一个condition
- 输入包含姿势参数
$θ$ 时间步长$t$ 和图像特征$c$ 的噪声样本$x_t$ - 首先使用线性层投影
$x_t$ 到第一个特征维度上$h^{(1)}$ 作为第一个MLP
输入 - 然后对每个
MLP
块的输入特征通过scaling
和shifting
的方式得到$h^{(i)}_{t}=t_sh^{(i)}+t_b$ $t_s$ 和$t_b$ 是一个输出维度是$2\times144$ ,计算公式$(t_s,t_b)=MLP(\phi(t)) $ - 每个
MLP
都会根据图像特征进行条件设置,方法是$concate(h^{(i)}, c))$
- 输入包含姿势参数