歡迎光臨
每天分享高質量文章

為了這個羞羞的機器學習專案,我差點成為“鑒黃師”

導讀:給男同學們一個機器學習,他們能研究所有他們能想到的問題。

當然,根據這本真實存在的暢銷書,他們真的能想到的話題也不多?

開個玩笑,不過今天確實要給大家介紹一個不太一樣有點羞羞的機器學習專案,也就是嘿嘿嘿的時候,最加深感情的某種動作的分析,英文俗稱“blowjob”或者“oral sex”。

 

 

編譯:蔣寶尚、魏子敏

來源:大資料文摘(ID:BigDataDigest)

 

 

儘管內容敏感,整體來看,這是個頗為學術的研究專案,由柏林一家公司Very Intelligent Ecommerce Inc所委托開啟。這個專案的最終目的也很有趣,是為一項名為Autoblow AI的專案設計進行的調研工作。

 

關於這個專案Autoblow AI,讀者可以自行谷歌……

 

在這個機器學習專案中,研究者研究包括108小時的色情視頻的訓練資料,並基於這些資料建立了一個模型(當然這也就意味著,研究者需要對這108個小時的視頻進行詳細標註)。

 

 

之後,模型對視頻中的口情色內容分成了十六種不同的經典型別。模型的核心是採用深度學習在程式上生成仿真動作。經過驗證,該模型的效果優於馬爾科夫鏈。

 

據悉,用機器學習對這一類情色內容進行分析,屬於前無古人的專案。分析結果為未來為未來的研究奠定了基礎。

 

先把這份神奇的paper獻上:

https://www.autoblow.com/bjpaper/

 

儘管整體研究頗為嚴謹,但基於專案的敏感性,此專案的作者選擇保持匿名。仍然感興趣的同學可以繼續往下讀,以下是這位研究者的論文,或者說一份研究自述?

 

機器學習和大資料分析在數字世界中變得越來越重要。性產業也不例外。

 

例如:與過濾色情片完全相同的技術可以很容易地對其進行分類和標記。一些網站也使用類似Netflix的推薦系統推薦視頻。這些只是人工智慧的一些實際應用。

 

在這項工作中,對這個未經探索的專案進行研究,特別側重於對男性的口情色動作分析是非常有勇氣的

 

該專案的具體操作過程為:

 

首先,量化了口情色動作中最“常見”或“典型”的動作,從而改善了Autoblow AI所使用的樣式的真實性。具體來說,使用量化技術來識別16種“典型”或“常見”運動,從而構建更加複雜的運動模塊。

 

其次,研究者使用以前的結果來研究運動的過程生成。設計一個基於深度學習的模型,用於從隨機噪聲中產生獨特但真實的序列。然後將該模型與一個簡單的馬爾可夫鏈模型進行了定量比較,證明瞭設計的正確性。

 

最後,研究者討論了未來的研究是可能的,在同一資料集的背景下,繼續改進的奧托布洛人工智慧和性玩具在總體上。

 

最後,在繼續改進Autoblow AI和性玩具的背景下,將討論如何使用相同資料集進行未來研究。

 

 

01 資料集

 

對AAA級色情視頻進行分析時,只採用男性口情色部分。具體資料的標準,有審查員手工標記,然後使用自定義的用戶界面記錄口與***的距離。該位置記錄為整數,其中1000表示軸的尖端,0表示基部。

 

▲自定義的用戶界面

 

為了分析,使用線性插值將視頻和註釋標準化為每秒16幀。最終將109小時的視頻資料集處理成6270467個標準化幀。

 

 

02 動作分析

 

進行這種分析,有助於對Autoblow AI的編程方式有一個基本的瞭解。Autoblow AI有十種樣式,每種樣式代表一系列動作。

 

動作的不同只是上或者下運動的速度的不同。瞭解這些之後,對性產品的優化非常有幫助,因為速度的不同可以由為電機控制。

 

兩個到三個不同的動作連續釋放也可以創造複雜的動作樣式。下麵的圖表描述了基於三動作樣式的分析。

 

 

可以清楚地看到運動具有周期性。也可以看到隨著時間變化動作的狀態,包括停頓和中斷。基於上千個這樣的片段,然後就可以建立機器學習模型從而識別出“常見”或“典型”的動作。

 

接下來,是驗證時間。

 

 

03 K均值聚類演算法

 

研究者開始了對K-均值演算法的研究,也就是Lloyd’s演算法。這個演算法雖然有很多缺點,但是它運行速度也很快。

 

將每個視頻分割成一秒的視窗,每個視窗的位置順序給出一組16維向量。然後用K-均值找到16個聚類。產生的結果和每個集群的100個樣本如下所示:

 

 

為了進一步驗證假設,研究者使用了一種最近發展起來的資料降維技術,即UMA。可以使使資料在2維空間和3維空間中可視化。

 

 

註意類別5和2的資料,它們分別代表頂部和底部附近的小活動點,這些小活動位於相對的“點”。另外類別1和5(它們都代表頂部附近的動作)彼此相鄰。在每一端的“點”之間也有一條密集的線,這條線似乎貫穿所有代表低強度動作(5,1,12,7,3,13,2)的資料點。

 

可以花很多時間來分析這個圖表,目前,這些驗證足以讓我們相信資料之間呈現某種趨勢。因此可以使用這些資料建立更加複雜的動作模型。

 

 

04 程式生成

 

如上所述,一個完整的樣式是從一系列的動作中創建的。研究者確定了在一秒鐘內發生的典型動作。

 

因此,下一步是找到共同的運動順序。

 

這個問題與自然語言問題的處理有很多相似之處,例如“你猜下一個詞是什麼意思”。下麵的漫畫最能說明這個問題。

 

 

因此,可以使用類似的技術。

 

首先建立一個基於馬爾可夫鏈的簡單模型作為基線。然後,研究者設計了一個深度學習模型作為替代方案,並對這兩種樣式進行了定量比較.

 

 

05 馬爾可夫鏈模型

 

馬爾可夫鏈背後的原理很簡單:假設下一步要去的地方只取決於我們在哪裡,而不是我們去過的地方。例如,假設我們剛剛做了運動,在此基礎上,我們知道我們再次做這個運動的概率是50%,接下來我們做另一個動作的概率是30%,第三個動作的概率是15%,等等。

然後,我們可以根據這些概率生成一個“唯一”序列,方法是根據概率隨機選擇下一個動作。

 

因此,採用此模型,需要計算一種樣式由另一種樣式引起的頻率,驗證概率與直覺是否一致。然後利用這些概率來生成唯一的序列,並使用簡單的移動平均進行平滑處理。結果如下:

 

 

馬爾可夫模型有自身的局限性,它的局限性也正是由於它的假設引起的。馬爾可夫模型下的假設是,下一狀態概率僅取決於當前狀態。事實上,這個假設並不是非常靈活。

 

另一個問題是,簡單的馬爾科夫鏈模型需要瞭解前幾個狀態的“最優”數來執行預測。這往往與現實不想符。如果最後3個狀態是A,B和C,也許在此之前發生的事情並不重要;但是如果它們是X,Y和Z然而情況就會不一樣。

 

 

06 Dense Neural Network (DNN) Model

 

在這一部分中,設計了一種基於先前狀態預測下一個狀態的DNN結構。

 

使用一個簡單的兩層體系結構,把最後最後16個狀態輸入進去,輸出範圍在在0到1之間,共有16個概率發生。這些概率意味著下一個狀態發生的幾率。

 

所有狀態都是獨熱編碼,用零矢量表示“缺失”狀態(例如,在視頻開始之前)。通過縱向連接先前的狀態向量來創建輸入。在此專案中只訓練80%的資料,因為剩下的20%資料要用於測試與比較。另外,使用交叉熵作為損失函式。

 

模型的性能取決於如何分割訓練資料和測試資料;為了處理隨機誤差帶來的影響,需要重覆10次及更多次的實驗,每次使用不同的隨機種子來分割訓練資料。這對於分析和比較是很重要的。

 

下麵,研究者定性地說明瞭該模型從隨機噪聲產生的一個序列:

 

▲DNN Sequence

 

 

07 模型比較

 

定性地說,DNN模型魯棒性更好,因為它被鎖定在單一狀態的可能性要小得多。

 

然而,通常,對於預測來說,首先要考慮的是準確性

 

 

比較:如果選擇概率最高的下一個狀態作為“預測”,那麼馬爾可夫模型的分類精度是多少?如果當前狀態的最高概率是(P_S),那麼當前狀態為(S)時,平均精度顯然也是(P_S)。然後,通過乘以該狀態出現的頻率(F_S)並對所有狀態進行求和,得到總精度;或者,簡潔地:

[sum_{s=1}^{16}p_s *f_s]

 

這給出的準確率約為58.08%,略低於神經網絡的平均精度,但還不能確定其中一個優於另一個。

 

然而,在這種情況下,分類的準確性是一個誤導性的指標。實際上不是在構建真正的分類器,而是一個序列生成器。不期望以前的16個狀態能唯一地識別每一個“下一個狀態”,所以不期望很高的精確度。

 

在這個問題中,假設是:錯誤的方式都相同。這與實際標的不相符。因此,必須使用一個引入“相對錯誤”的度量。

 

引入“相對錯誤”之後,對模型的比較有非常大的幫助。例如,你在試著預測是否下雨。如果你說你百分之百肯定明天會下雨,如果沒有,那麼是你預測錯了。如果你說你80%肯定明天會下雨,但你還是錯了;但你沒有完全肯定地說錯,因為至少你考慮到了你可能錯了。從某種意義上說,你只錯了80%。

 

用同樣的框架和前面的假設為馬爾可夫模型計算這個度量。如果給定當前狀態(S)下一個狀態(I)的概率為(p_{is}),那麼當前狀態為(S)時選擇該狀態時的錯誤是(2*(1-p_{is})).如果(n_{is})是狀態(I)跟隨狀態(S)的次數,那麼,所有當前和下一個狀態的總錯誤顯然是:

\[ 2 * \frac{\sum_{s=1}^{16} \sum_{i=1}^{16} n_{is} * (1 – p_{is})}{\sum_{s=1}^{16} \sum_{i=1}^{16} n_{is}} \]

 

使用本文所使用的資料,計算所得為1.126。換句話說,平均而言,馬爾可夫模型在所有類別中都有7.6個百分點的錯誤。

 

這看起來並不是很多,但它仍然是一個改進。因此,DNN模型有更少的錯誤率。

 

具體而言,由於DNN模型中的分類精度和平均絕對誤差都是優越的,可以有把握地說它是一個更棒的模型。

 

 

08 未來的研究

 

最後,在繼續改進Autoblow AI和性玩具的背景下,討論使用相同資料集進行的未來研究。

 

第一:可以改行程序生成。簡單的DNN架構的替代方案包括迴圈神經網絡,捲積神經網絡和生成對抗網絡。打算研究更複雜的技術來改善序列的真實性。但是,這些需要與物理硬體的限制相平衡。

 

第二:研究者認為類似的分析可以適用於其他情色行為。

 

第三:希望將研究擴展到圖像識別和視頻分類。現在已經有了一種模型,可以用於識別靜止幀中是否存在口情色行為,並且正在研究更複雜的視頻分析問題。接下來的研究重點可以放到將性玩具與看不見的色情內容同步方面。

 

我們期待著繼續探索這個未知又神秘的空間。

 

據統計,99%的大咖都完成了這個神操作

 

更多精彩

 

在公眾號後臺對話框輸入以下關鍵詞

查看更多優質內容!

 

PPT | 報告 | 讀書 | 書單

Python | 機器學習 | 深度學習 | 神經網絡

區塊鏈 | 揭秘 | 乾貨 | 數學

猜你想看

Q: 你還見過哪些有趣的機器學習專案

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯繫:[email protected]

更多精彩,請在後臺點擊“歷史文章”查看

    赞(0)

    分享創造快樂