歡迎光臨
每天分享高質量文章

用Python挖一挖知乎上宅男們最喜歡的1000個妹子

導讀:在文章開始前,先來一張圖給大家熱熱身。這裡是宅男們最喜歡的妹子中排名前200位的頭像(實際193張圖,部分不規則的圖已被作者過濾)。排名不分先後哈!快來看看有沒有你們熟悉的面孔。

找到眼熟的人了嗎?說不定你也在裡面哦!

相信大家最關心以下兩點:

1. 除了照片外還有什麼資訊?

——那必須呀,肯定還有乾貨。

2. 這些漂亮美眉是怎樣被找出來的呢?

——馬上就給大家解答。

作者:二胖

來源:大資料前沿(ID:bigdataqianyan)

01 挖取策略

PS:不關心技術和流程的童鞋可以直接跳過這部分看後面的資料分析部分

首先給大家解釋下,是怎麼找到這些漂亮美眉的。

先用一張流程圖介紹一下整個流程:[左邊的方框代表操作,右邊的橢圓代表資料]

第一步

人工選擇的初始群體很關鍵,但是並不難。

可以從關註某些問題的相關使用者中抓取標的人群,如問題:女生腿長是什麼感覺?或者抓取這些問題下活躍男性使用者關註或點贊的女性。

這裡選擇了部分問題和部分男性的關註動態和點贊動態,篩選出了第一批女性群體,也就是上圖中的初始美眉群體(具體選擇了哪些問題和男性使用者就不在這裡公佈了)

她們由於某種特殊的關聯或者使用者行為被聚類在了一起,我們可以簡稱她們為相似性使用者。這裡找到了2553人作為初始群體,下圖為讀取的redis中的記錄數。

第二步

下麵需要抓取所有美眉的男性粉絲的關註關係。

請註意:這裡為什麼要抓取關註關係,而不是男性粉絲的集合呢?——因為我們要找到“最佳宅男”。

舉個例子:假設初始美眉群體有三個使用者:小美、中美和大美,關註關係如下所示:

男性粉絲的集合是:{1,2,3,4,5}

而關註關係指的是:有幾條線就有幾個關註關係,這裡有9個關註關係。

這一步共抓取了219165條關註關係。

第三步

下麵需要找出上一步中關註初始女性群體中人數最多的男性粉絲。

這裡很容易理解,比如在大美中美小美那張圖裡,關註初始女性群體人數最多的男性分別是3>2>=4>1>=5,“最佳宅男”就是3啦。

對上一步中的資料進行排序後,共計男性粉絲人數105379人。

這裡截取了前2106名男性作為“宅男”群體。

悄悄給大家看看排行前10的“宅男們”,“宅男”第一名關註了2000多位初始女性美眉中的858人,快一半了,我只想說,老司機帶帶我。


當然,這裡肯定不能公佈他們的資訊啦。(下圖中打碼的部分是他們的url_token,即唯一身份標識;後面的數字是他們所關註的初始美眉群體中的美眉數量)

我只能說,排第一的哥們兒,你嚇到我了,賠錢。

第四步

有了這2000多個“宅男”就好辦了,接下來的步驟和上面類似。抓取這些“宅男”關註的女性使用者,同樣按關註關係排序,得到前2000名最受歡迎的美眉:

其中女性關註關係有:344849條。

女性使用者集合中有:66869人。

同樣,悄悄給大家看看排行前十的美眉被多少宅男關註了,悄悄地看一下這些美眉們的主頁,確實很漂亮,她們的回答中也有特別多的照片?。

講到這裡,技術實現的過程基本講解完畢,當然,這隻是個粗略的介紹,其中省略了不少細節。這並不是最佳的操作,比如可以用更加合理的演演算法和方法聚類,這裡就僅供娛樂吧。

02 資料分析

我特別喜歡ElasticSearch檔案中的一句話:“There is no point in having data unless you plan to do something with it.”。有了資料當然要分析一下啦。

1. 關於宅男

對於篩選出來的2000名“宅男”,這裡也對其進行了簡單的分析,我相信大部分人關註的是美眉而不是宅男,所以只統計了宅男們關註的話題、職位等資訊。

首先展示的是他們最關註的150個話題,大家可以在詞雲中仔細找找關鍵詞,有亮點哦。

亮點找到了嗎?一眼望過去就看見了“Python、Android、程式員、ios”等內容,看來程式員為宅男隊伍的壯大貢獻了不少力量啊。

於此,我又探究了一下“宅男”們的崗位:

程式員不愧是“宅男”的主力軍,這好像並不太奇怪?奇怪的是,為什麼有那麼多Android開發的童鞋,你們有什麼特殊癖好嗎?

我又順便分析了下“宅男”們的地理位置,也許是因為北京和上海的使用者較多,所以北京和上海的宅男人數也尤為突出。

2. 關於妹子

好啦,你們關註的妹子來啦。

首先還是先看看妹子們關註的話題吧。和宅男們相比,妹子們關註的話題就正常多了,美容護膚、音樂、經濟、旅行、法律、金融——確實是很女生了。當然嘍,感興趣的同學可以仔細找找亮點哦。

最令人關註的是為什麼那麼多美眉關註Photoshop,莫非妹子們和PS之間有什麼不可說的聯絡嗎?嘻嘻。

妹子們的位置和宅男們的一樣,身處北京和上海的居多,我認為這可能是使用者基數大的原因。

除了以上資訊,我還抓取了妹子們的自我描述,並對關鍵詞進行了提取。而後發現,這些美眉多數都在運營公眾號、微博,同時很多妹子還留下了個人微信。

妹子們留下的工作資訊比較少,收集到的資料不算很多。不過創始人是什麼,妹子們都創業了?嗯嗯,產品經理就不意外啦,很多產品經理都玩知乎的。

除了上述資訊外,我還抓取了這2000個美眉們回答得最多的問題,下麵是排行前25的問題:

很多問題我都點開看了,發現這些問題多數都是需要爆照的,比如“你的日常搭配是什麼樣子?”很多美眉都在這個問題下發了自拍照,大家可以去瞅瞅。

除了這些問題,我還將排行前400的問題整理了一下,由於版面問題。這裡只放了前25個,需要其他問題的童鞋可以在公眾號後臺對話方塊回覆知乎美眉獲取。

03 寫在最後

除了以上內容,我還分析了其他的資訊,比如宅男和美眉們的公司、學校等,由於涉及隱私不能發出來,感興趣的童鞋可以嘗試自己分析。

這些資料除了可供娛樂,還可以做很多事情,比如可以幫找女朋友。

舉個簡單的例子:你想要找一個長得好看、單身、身材好、腿長並且短髮的女朋友該怎麼辦。最簡單的辦法就是用程式去查詢:同時回答了以下問題的女性。

  • 女生腿長是什麼感覺?

  • 身材好是一種怎樣的體驗?

  • 長得好看,但沒有男朋友是怎樣的體驗?

  • 女生有一頭短髮是種怎樣的體驗?

當然這不一定準確,也不一定能找到某些潛水使用者,但是至少比我們一個一個去找要快得多。

除此以外,大家一定要註意保護自己的隱私!使用者行為都是可以被獲取的,用程式可以計算出你的習慣,並對你進行簡單的使用者畫像、分類等。就拿知乎來說,透過大家關註了哪些人、點了哪些贊、關註了哪些問題、留下的職業及學校等資訊基本就可以大致判斷出使用者的型別,要不怎麼會有個性化推薦呢。

所以,在大資料時代,我們幾乎是沒有隱私可言的。當然,這也有利有弊,用一定的演演算法,我們也可以發現一些異常行為,比如知乎上的不少騙子、酒託、飯託等,都可以透過資料聚類,從而發現社會上一些不和諧的事情。

本文涉及的程式碼和資料就不提供給大家啦。一是為了避免大家的抓取對網站伺服器造成過多壓力,二是資料具有一定的隱私性。感興趣的童鞋可以自己透過技術實現,文中也有說到實現思路。

更多精彩


在公眾號後臺對話方塊輸入以下關鍵詞

檢視更多優質內容!

PPT | 讀書 | 乾貨 高考 | 世界盃

Python | 機器學習 | 區塊鏈 | 揭秘 | 福利

推薦閱讀

Q: 你是宅男還是妹子?

歡迎留言與大家分享

覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:baiyu@hzbook.com

更多精彩,請在後臺點選“歷史文章”檢視

贊(0)

分享創造快樂