歡迎光臨
每天分享高質量文章

教你如何用Python正經地八卦:運動員美好身材鑒賞指南

如果有10個人關註“體育賽事”

那就有100個人關“體育明星”

如果有10個人關註羽生結玄能否完成“勾手四周跳”

那就有100個人關註羽生結玄優雅的肉體 

八卦的力量是無窮的 !  


那麼身為一個在職場打拼、會抓熱點、有技術控的編輯,怎樣做一次不妖艷,不從眾的八卦研究呢?今天我就為大家秀一把新學的技能:用Python完成一次與眾不同的八卦。

本文以奧運資料為導向進行體育明星特點分析,同時也是一個免費的資料技能教程,適合所有資料初學者,具體包括:


1、八卦的資料源哪裡找?——網頁資料爬取

2、體育明星肉體觀看指南——Python資料清洗、分析與簡單建模

3、總結報告——收集和展示資料結論

 

親測,跟一遍操作就能很快上手。心急的同學可以直接去文末獲取教程~




01

一個頭疼的問題——鮮肉資料哪裡找?  


研究主題的網頁資料是一種最常用的資料收集方法。奧運會可說是一個綜合度高,信息齊全的主題。百度一下,很快能找到相關信息網站:網易奧運資料庫


打開網站原始碼,會發現所有的網站資料都記錄在內:


網易奧運資料庫url:http://info.2016.163.com/athlete/list/


不需要會寫html代碼,只要能使用ctrl+f找到你需要的資料,並用三方軟體寫腳本,十分鐘就能獲取所有上一屆奧運會運動員的csv資料:


寫好爬蟲腳本即可快速獲取運動員從csv資料


當然,本次獲取的資料已經一併打包在文末的教程里了,不用謝


02 

體育明星肉體比拼——誰是我的菜? 


做完必要的資料清洗,接下來要思考的是往什麼方向做研究。說到肉體,身材勻稱的長腿鮮肉的是最容易紅的。哪個專案有最多的潛在網紅?誰是大家都愛欣賞的最美肉體?一番思考後,決定分別用BMI指數手長腿身比年齡來描述身材勻稱、長腿、鮮肉等指標。


呼叫python中的神器庫pandas進行資料加載、清洗和分析,再使用matplotlib庫中的組合圖功能以及seaborn庫中的美化功能,便可以快速美觀地批量出圖:


使用matplotlib庫可以做組合圖表,一鍵存圖,自由度高,在前期可視化找結論的階段很實用


一項資料研究的開始總會有很多腦洞,對這些小結論進行篩選的過程也是理解資料本身的過程


瞭解了基本情況後,決定按大眾喜好制定以下四條評分規則,最後歸一化處理,分別得出每個專案的運動員總評分評分分佈情況:

1、BMI評估:最接近22,差值絕對值越小分數越高

2、腿長評估:計算與身高的比值,比值越大分數越高

3、手長評估:計算與身高的比值,比值越接近1分值越高

4、年齡評估:年齡越小分數越高

綜合來看,跳水、拳擊、游泳的整體表現比較好,且專案里均有幾個肉體得分高的人。


那麼究竟是哪些運動員有“最美肉體”按照同樣的邏輯,我改了幾行代碼,很快地計算出每個運動員的評分和排名,併進行可視化:


按照計算得出的“誰是大家都愛欣賞的最美肉體”TOP8運動員:


所以大家可以留心一下,你最喜歡的體育明星上榜了嗎???鐘愛游泳的我當然不會放過國民網紅傅園慧,97年的沈鐸妹子接下來也會是“重點關註物件”。


03

八卦了這麼多——是時候總結一下了  


把做過的資料小研究收集起來是個好習慣,方便翻閱。放在ppt檔案容易忘,我通常會把一些結論做成圖表報告放在在線工具inforgram里,還可以一鍵分享:


複製這個url到瀏覽器就能看到在線報告了:https://infogram.com/–1hnp27xdgyyp6gq




時過境遷,福原愛醬已經嫁為人妻,張繼科也被宇宙景甜給搶走了,當年的CP越來越涼,奧運熱度不再。那麼問題來了,為什麼我還要學習新技能,辛辛苦苦寫下了以上所有代碼?


因為下一個體育熱點“世界杯”就要來了啊!


把這些代碼變儲存好變成腳本,資料的處理過程就儲存下來了,下一次使用就能省下資料清洗、整理、構思的時間,比以前用excel快多了。


磨刀不誤砍柴工,作為新媒體編輯又一篇文章搞定!老闆滿意,主編點頭,不用加班!


以上的這些技能,是我花了一周業餘時間從大鵬老師的免費Python資料分析教程中學習的你上你也行!所以,如果你想學Python資料編程,我強烈建議你參加一次“要動手、有標的、有答疑”的《資料分析師(Python)訓練營》開始學習。參與方法就在下方↓

想要免費加入《Python資料分析師》訓練營的小伙伴,請掃描下方二維碼,就可以加入資料分析師學習QQ群啦!

了免費參與訓練營外,進入資料分析師學習QQ群後,還可領取一份12G資料分析資料包組隊對抗惰性,與小伙伴共同進步吧!

赞(0)

分享創造快樂