在成人影片裡做17種姿勢識別?大佬在線求助:訓練集不夠用

新智元 發佈 2022-07-05T23:20:44.224250+00:00

【新智元導讀】有大佬最近在成人影片中做姿態識別的任務,發帖表示訓練集不夠用。不過並非只是模型的簡單遷移,訓練過程也遇到了一些技術上的難關,主要是因為攝像機位置在視頻中經常會變換。

編輯:LRS

【新智元導讀】有大佬最近在成人影片中做姿態識別的任務,發帖表示訓練集不夠用。立刻得到熱心網友響應:我贊助140TB數據!


兄弟們又來學技術啦!

今天講的是人體動作識別(Human Action Recognition),也就是通過模型識別出圖片、視頻中的人體動作姿勢。

最近Reddit的一個網友突發奇想,如果把模型用在成人內容領域,那一定可以大大增加色情視頻的鑑別和搜索的準確度。

據作者稱,他建立的深度學習模型以圖像RGB、骨架(Skeleton)和音頻作為輸入,對視頻中的演員姿勢識別準確度已經可以達到75%了。

不過並非只是模型的簡單遷移,訓練過程也遇到了一些技術上的難關,主要是因為攝像機位置在視頻中經常會變換。

小編根據網友的描述推測,拍攝成人電影的攝像機可能是沒有固定機位或機位變換次數多,而人體動作識別的模型通常應用於監控視頻等有固定位置的攝像機。

作者還表示,訓練數據集相對較小也是一個問題,他只有大約44小時的訓練數據,並且影片中的人物位置通常距離很近,所以大多數視頻很難得到準確的姿勢估計,也就沒有辦法將所有的位置納入基於skeleton的模型中。

一個比較新奇的發現是,輸入流中的音頻信號,對於4個action的分類是有提升效果的,不過也只是對某些action有用。

帖子一出,也是獲得了技術大咖們的一致點讚。

一切都是為了科學!

不過網友們也立刻明白了作者的核心訴求:求資源!

有網友表示,你要麼能得到海量的資源支持,或者一點也拿不到。

也有人表示他曾經也做過類似的項目,他遇到的問題主要是高度嘈雜的場景和非常不穩定的攝像機。真正困難的場景是有3個以上演員參與的場景,會讓實體的區分會變得很困難。


並且他表示對2人以上的sex position沒有概念,所以看到這個模型如此容易地達到這麼高的準確率,感覺有點受挫,想看看樓主是怎麼實現的。

最慷慨的網友當場表示,我願意贊助數據集!視頻大小140.6TB,時長達到11年6個月,包括6416位表演藝術家,還有46.5GB的圖片。

有網友跟著評論,替自己搞科研的朋友同求資源。

至於這項研究有什麼意義,網友表示應用前景可大了!以後在資源網站上檢索,可以按照指定的position對視頻進行過濾,而不只是傳統的標籤、標題、類別等等。

正經的科學

原作者公開了原始碼,表示他的目的是看看最先進的人類動作識別(HAR)模型在色情領域的表現如何。

代碼連結:https://github.com/rlleshi/phar

HAR是深度學習領域中一個相對較新的、活躍的研究領域,其目標是從各種輸入流(如視頻或傳感器)中識別人類行為。

從技術角度看,色情領域很有趣,因為它有一些與眾不同的難點,如光線變化、遮擋以及不同攝像機角度和拍攝技術的巨大變化(POV、專業攝像師)使得位置與動作識別變得困難。兩個相同的位置與動作,可能存在多個不同的相機視角拍攝,從而完全混淆了模型的預測。

作者收集到的數據集非常多樣,包括各種錄音,如POV、專業拍攝的、業餘的、有無專門攝像人員的等等,還包括各種環境、人和攝像機的角度。

作者也表示,如果只使用專業團隊拍攝的影片,這個問題可能不會特別嚴重。

根據收集到的數據集,作者總結了17個動作的識別,如親吻等,不過動作的定義可能是不全面的,也可能有概念上的重疊。

其中作者把撫觸把玩(fondling)當作一個占位符,沒有其他動作類別檢測到的時候,就將其視為撫觸把玩,不過作者在標註數據過程中發現,44小時的影片數據中只得到了48分鐘的撫觸把玩數據。

項目的實現基於MMAction2,它是一個基於PyTorch的視頻理解開源工具箱,可以對人體的骨架動作進行識別等。

取得SOTA結果的模型是通過基於三個輸入流的三個模型的後期集成得到的。

與只使用基於RGB的模型相比,可以取得明顯的性能改進。由於可能不止一個動作可能同時發,並且一些動作/位置在概念上是重疊的,所以評價標準以前兩名的預測準確性作為性能度量。

目前多模態模型的準確率為~75%。但由於數據集相當小,總共只進行了約50次實驗,因此有很大的改進空間。

首先介紹一下在性能和運行時間上都表現最好的多模態(Rgb + 骨架 + 音頻)模型。

作者對視頻RGB流使用TimeSformer,對骨架流使用poseC3D,以及用於音頻流的resnet101。

這些模型的結果通過集成在一起,因為這些模型的重要性不同,所以微調後的權重是分別是0.5, 0.6和1.0

另一種方法是一次用兩個輸入流訓練一個模型(即rgb+skeleton和rgb+audio),然後將它們的結果集成起來。

但在實際上,這個操作是不可行的。

因為如果模型的輸入包含音頻輸入流,它只能對某些動作,比如deepthroat由於咽喉反射導致音調比較高,而對於其他動作,則不可能從其音頻中獲得任何的有效特徵,從音頻的角度來看,他們是完全相同的。

同樣,基於骨架的模型只能用於那些姿勢估計準確度高於某個置信度閾值的情況(對於這些實驗,所用的閾值是0.4)。

例如,對於scoop-up或the-snake等高難度稀有動作,由於畫面中人體位置比較接近,在大多數相機角度下很難得到準確的姿勢估計(姿勢變得模糊,混合在了一起),會對HAR模型的準確性產生了負面的影響。

對於諸如 doggy, cowgirl或missionary等普通動作來說,姿勢估計的效果都不錯,可以用於訓練一個HAR模型。

如果我們有一個更大的數據集,那麼我們可能會有足夠多的難分類姿勢的實例,再用基於骨架的模型訓練所有的17個動作。

根據目前的SOTA文獻,基於骨架的模型優於基於RGB的模型。當然,理想情況下,姿勢估計模型也應該在sex domain中進行微調,以獲得更好的整體姿勢估計。

對於RGB輸入流,基於注意力的TimeSformer架構實現了3D RGB模型的最佳結果,推理速度也非常快(~0.53s/7s clips)。

RGB模式總共有~1.76萬個訓練片段和~4900個評價片段,並應用了各種數據增強技術,如重新縮放、裁剪、翻轉、顏色反轉、高斯模糊、彈性變換、仿生變換等。

基於骨架模型的最佳結果是由基於CNN的PoseC3D架構實現的,模型的推理速度也很快(~3.3s/7s clips)。

姿勢數據集比原始的RGB數據集要小得多,只有33%的幀的置信度高於0.4,所以最終測試集只有815個片段,且目標類別僅為6個。

基於語音的模型使用了一個簡單的ResNet 101,jiyu Audiovisual SlowFast,推理速度非常快(0.05s/7s clips)。

對語音的預處理為從數據集中剪掉不夠響亮的音頻。通過修剪最安靜的20%的音頻,取得了最佳效果。總共有大約5.9萬個訓練片段和1.5萬個驗證片段。


參考資料:

https://www.reddit.com/r/MachineLearning/comments/va0p9u/p_r_deep_learning_classifier_for_sex_positions/

關鍵字: