PAPER

2017.04.06 Up

Posted by Nao Tokui

見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video

見えない体を見る. 一人称視点の映像からカメラをつけている人の姿勢を推定. – Seeing Invisible Poses: Estimating 3D Body Pose from Egocentric Video

GoProなどのアクションカメラが一般化したことで観る機会が増えた一人称視点の映像から、そのカメラをつけている人がその時にどういうポーズをとっているのかを推定しようという研究.

当然、手足はほとんど映っていないわけですから、見えない体を推定することになります. 本研究では映像のゆれのパターンと周囲の風景がどう変化するといったことを手掛かりに、カメラに映っていない体全体を予想しています.

カメラは左の写真のように胸につけている模様. (b)のような一人称視点の映像から、(c)の姿勢を推定するということになります.  (実際には学習したサンプルデータ内の姿勢を300種類に分類(クラスタリング)して、そのどのクラスタに当てはまるかを推定しています)

カメラの動きから姿勢(のクラスタ)を推定する仕組みをRandom Forestで.  同様に動きがないような場面では、「座っている」か「立っているか」の二択で推定する畳み込みニューラルネットワーク(CNN)を学習して使っています. あとは姿勢から別の姿勢への移行の経路にかかるコストを計算して、Dynamic Programmingで最適化(一番自然な移行の仕方を探す)しています.

こうした作ったモデルで推定している結果が次の動画です (プロジェクトのサイトより. PCでご覧ください.)

中央は確認用の外からみた視点ですね. まだまだ間違えてる部分も多いですが、座る立つ歩くなどの動作はわりとちゃんと認識されてます .  VR系のインタラクションの設計に使えたりしそうですね.

映像から直接CNNで姿勢を推定したり、RandomForestの代わりにCNNのアウトプットをつかったりといったことも試したそうですが、データが少ないためか精度がでなかったと書かれています.

似たような研究としては同じように体につけたカメラの動画から、動作(ジョギング、歩く、サイクリング etc)を推定するとか、個人認証に利用しようとする研究もあります.

arXiv(2016.03.24公開)

Understanding the camera wearer’s activity is central to egocentric vision, yet one key facet of that activity is inherently invisible to the camera— the wearer’s body pose. Prior work focuses on estimating the pose of hands and arms when they come into view, but this 1) gives an incomplete view of the full body posture, and 2) prevents any pose estimate at all in many frames, since the hands are only visible in a fraction of daily life activities.We propose to infer the “invisible pose” of a person behind the egocentric camera. Given a single video, our efficient learning-based approach returns the full body 3D joint positions for each frame. Our method exploits cues from the dynamic motion signatures of the surrounding scene—which changes predictably as a function of body pose as well as static scene structures that reveal the viewpoint (e.g., sitting vs. standing). We further introduce a novel energy minimization scheme to infer the pose sequence. It uses soft predictions of the poses per time instant together with a non- parametric model of human pose dynamics over longer windows. Our method outperforms an array of possible alternatives, including deep learning approaches for direct pose regression from images.

TAG