首頁(yè) > 智能時(shí)代>人工智能

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

量子位 2021/10/5 21:29:37 責(zé)編：若水

評(píng)論：

長(zhǎng)久以來(lái)，三維姿態(tài)估計(jì)都在追求準(zhǔn)確性上一路狂奔。

但精度提高的同時(shí)，也帶來(lái)了計(jì)算成本的上升。

而剛剛被 CPVR 2021 接受的論文中所提出的模型，MobileHumanPose 卻可以同時(shí)做到又小又好。

還是放在手機(jī)上都能 hold 得住的那種。來(lái)感受一下：

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

這種動(dòng)作的健身操也沒問題：

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

據(jù)了解，這個(gè)模型的尺寸，只有基于 ResNet-50 的模型的 1/7，算力達(dá)到了 3.92GFLOPS。

而且平均每關(guān)節(jié)位置誤差（MPJPE），也只有大約 5 厘米。

那么這一模型到底是如何在有限的算力下產(chǎn)生極佳性能的呢？

基于編碼器-解碼器結(jié)構(gòu)的改進(jìn)

這是一個(gè)從基本的編碼器-解碼器結(jié)構(gòu)改良得來(lái)的模型。

在編碼器用于全局特征提取，而解碼器進(jìn)行姿態(tài)估計(jì)的基礎(chǔ)架構(gòu)上，研究團(tuán)隊(duì)對(duì)其主干網(wǎng)絡(luò)、激活函數(shù)，以及 Skip concatenation 功能都進(jìn)行了修改。

先來(lái)看研究團(tuán)隊(duì)選擇的主干網(wǎng)絡(luò)，MobileNetV2。

他們?cè)?MobileNetV2 的前四個(gè)倒置殘差塊（Residual Block）處修改了通道大小，獲得了性能提升。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

接下來(lái)，將 PReLU 函數(shù)用于實(shí)現(xiàn)激活功能，其中 ai 為學(xué)習(xí)參數(shù) yi 是輸入信號(hào)。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

這一函數(shù)中的可學(xué)習(xí)參數(shù)能夠在每一層網(wǎng)絡(luò)都獲得額外的信息，因此在人體姿勢(shì)估計(jì)任務(wù)中使用參數(shù)化 PReLU 時(shí)可提升性能。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

▲ 修改了激活函數(shù)后的 baseline

現(xiàn)在，模型的效率已經(jīng)不低了，但考慮到推理速度，團(tuán)隊(duì)使用 Skip concatenation 結(jié)構(gòu)。這一結(jié)構(gòu)能從編碼器到解碼器中導(dǎo)出低級(jí)別特征信號(hào)（Lowlevel feature signal），不會(huì)降低性能。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

參數(shù)量減少 5 倍，計(jì)算成本降到 1/3

團(tuán)隊(duì)使用 Human3.6M 和 MuCo-3DHP 作為三維人體姿勢(shì)數(shù)據(jù)集，他們提出了 MobileNetV2 的大小兩個(gè)模型。

在 Human3.6M 上，MobileNetV2 大模型實(shí)現(xiàn)了 51.44 毫米的平均每關(guān)節(jié)位置誤差。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

且其參數(shù)量為 4.07M，對(duì)比同類模型的 20.4M（chen）減少了 5 倍，計(jì)算成本為 5.49GFLOPS，是同類模型的 1/3 不到（14.1G）。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

對(duì)于多人三維姿勢(shì)估計(jì)任務(wù)，研究者使用 RootNet 來(lái)估計(jì)每個(gè)人的絕對(duì)坐標(biāo)，在 MuPoTS 的 20 個(gè)場(chǎng)景中進(jìn)行了實(shí)驗(yàn)：

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

實(shí)驗(yàn)結(jié)果證明，對(duì)比 Zerui Chen 等研究者提出的獲 ECCV 2020 的三維人體姿態(tài)估計(jì)方法，MobileNetV2 在一般場(chǎng)景中的性能都更好，且在少數(shù)場(chǎng)景中取得了最佳性能：

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

在模型效率上，MobileNetV2 的大模型效率為 2.24M/3.92GFLOPS，遠(yuǎn)超同類模型的 13.0M/10.7GFLOPS（Zerui Chen）。

而小模型也能實(shí)現(xiàn) 56.94 毫米的平均每關(guān)節(jié)位置誤差，有 224 萬(wàn)個(gè)參數(shù)，計(jì)算成本為 3.92GFLOPS。

作者介紹

論文的三位作者皆畢業(yè)于韓國(guó)高等技術(shù)研究院，一作 Sangbum Choi 為該校的電機(jī)及電子工程專業(yè)碩士。

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

論文：

https://openaccess.thecvf.com/content/CVPR2021W/MAI/html/Choi_MobileHumanPose_Toward_Real-Time_3D_Human_Pose_Estimation_in_Mobile_Devices_CVPRW_2021_paper.html

開源地址：

[1]https://github.com/SangbumChoi/MobileHumanPose

[2]https://github.com/ibaiGorordo/ONNX-Mobile-Human-Pose-3D

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

基于編碼器-解碼器結(jié)構(gòu)的改進(jìn)

參數(shù)量減少 5 倍，計(jì)算成本降到 1/3

作者介紹

相關(guān)文章

可以裝在手機(jī)里的 3D 姿態(tài)估計(jì)，模型尺寸僅同類 1/7，平均關(guān)節(jié)位置誤差卻只有 5 厘米

參數(shù)量減少 5 倍，計(jì)算成本降到 1/3