How can we understand humans in internet video? Our #ECCV2020 work presents a simple but highly effective method for self-training on unlabeled video! We annotate four datasets to evaluate & show large gains.
— Chris Rockwell (@_crockwell) August 14, 2020我々が身体の一部しか映っていない動画からポーズを推定できるのは、その人がどういった状況でなにをしているのかを無意識に理解しているからだ。例えば、キーボードと手の動画を観れば、タイピングしている人の身体が想像でき、場合によっては立っているか座っているかまでわかる。