Por muito tempo, pesquisadores têm buscado de forma incansável por precisão na estimativa de pose humana 3D, mas quanto mais a precisão é aprimorada, maior o aumento do custo de cálculo.
O modelo proposto no artigo recém-aceito pelo CPVR 2021, MobileHumanPose, pode ser bom e pequeno ao mesmo tempo, e ainda pode ser portátil no celular.
Fonte: IT Home
O tamanho desse modelo é apenas 1/7 do modelo baseado no ResNet-50, e o poder de computação chega a 3,92 gigaflops. O erro médio de posição de junta (MPJPE) é de apenas 5 cm.
A equipe usou Human3.6M e MuCo-3DHP como o conjunto de dados de pose humana tridimensional e propôs dois modelos de MobileNetV2.
No Human3.6M, o modelo grande do MobileNetV2 atingiu um erro de posição médio por junta de 51,44 mm.
E sua quantidade de parâmetro é 4,07M, que é 5 vezes menor que os 20,4M do modelo similar, e o custo de cálculo é 5,49 gigaflops, que é menor que 1/3 do modelo similar, de 14,1 gigaflops.
Para a tarefa de estimativa de pose 3D para várias pessoas, os pesquisadores usaram o RootNet para estimar as coordenadas absolutas de cada pessoa e conduziram experimentos em 20 cenas de MuPoTS:
Fonte: IT Home
Em termos de eficiência do modelo, o modelo grande do MobileNetV2 é de 2,24M / 3,92 GFLOPS, excedendo em muito 13,0M / 10,7 GFLOPS de modelos semelhantes.
O modelo pequeno também pode atingir um erro de posição médio por junta de 56,94 mm, com 2,24 milhões de parâmetros e um custo computacional de 3,92 GFLOPS.