歡迎光臨
每天分享高質量文章

用Python做跳一跳外掛太浪費了,這種技能讓你目瞪口獃

小編現在每天思考最多的問題就是

到底什麼時候能發財啊!!!

再看看每個月工資卡裡的錢

真的是只能以45度角仰望天空

一直以來,年底都是離職的高峰期

嗑著瓜子,刷著51job

 

學習Python也有幾個月了,

該考慮換工作啦,

看了眼招聘網站,就像這樣~

信息玲琅滿目不知該怎麼辦了,這時候,我想到了Python爬蟲,如果能把信息都下載下來,可以隨時隨地的分析,這樣一定可以找到稱心如意的工作


一、準備工作     

語言:Python3

工具:Pycharm,firefox

技術:requests,BeautifulSoup,re,csv


二、流程概述

爬取51JOB相關工作第一頁,獲得頁數

然後開始爬蟲

獲得每一頁詳細信息鏈接

通過鏈接獲取詳細信息

存入CSV檔案

三、具體實現

a)使用瀏覽器前往51JOB打開開發者工具,進行搜索,我們選擇http://m.51job.com/,一般來說大型網站的PC端會有反爬蟲措施,相對起來移動端會容易點,不過51的PC端也很容易爬,只是不喜歡那個頁面風格而已。


這樣信息就一覽無遺了,從右邊的視窗我們能看到url,引數,以及響應頁面

所以我們只要填寫引數所有的資料要求,我們便能等到一串HTML代碼,這就是我們要爬取的內容了。


b)我們需要先直接請求第一頁,獲取總數,使用requests獲取資料,然後使用bs解析,這兩個python庫,API都很簡單並且都比較輕量,很適合初學者學習使用,利用正則運算式獲取總工作數量


數了下大約一頁可以顯示30條記錄,那我們就能得出需要爬的頁數

c)從密密麻麻的HTML中我們點開形如“http://m.51job.com/search”這樣的鏈接,工作的詳細信息映入我們眼帘,這就是我們資料的來源,我們把獲得的鏈接存入一個串列中,便於我們接下來的呼叫。HTML我們使用BS4解析,BS4有四種解析器,lxml是需要安裝C語言庫的,我們可以使用html.parser庫,lxml速度快但是在這個專案里並沒有多明顯。

d)點開鏈接,我們需要的信息一目瞭然,從中我們選取我們需要的信息,可以直接使用bs的方法獲取,也可以使用正則運算式提取相關段落。特別註意的是有些欄位在某些頁面是不存在的,比如工作經驗,需要判斷。


e)最後便是把信息插入到csv檔案中,大家也可以使用mysql,mongoDB等工具存放資料。


這裡特別註意的是,使用”w”樣式寫,會有空行,但是使用二進制”wb”樣式會報二進制與字串不匹配,所以在打開時候加入引數newline=’’,會避免空行。

最後完成如上圖,可以使用熟悉的Excel軟體進行排序操作,隨時隨地可以查看了。

Python作為現在最流行的一種語言之一,以其編寫簡單不羅嗦,類庫數量龐大而著稱。自從學習了python,厚重的JAVA早被我拋到九霄雲外了,日常編寫點應用類工具什麼的真的特別方便。


編寫應用並不困難,只要思路理清了,對流程進行分解,按塊來編程,最後組裝起來,如果錯了,直接修改出錯的塊,並不需要動整個代碼。


看了上文介紹的如何找工作


是不是看文字還不夠具體?

小編下周還為你精心準備了三個的視頻直播課。

手把手的教你如何用Python抓取資料。


趙瑾

資料分析講師,多年開發經驗,擅長JavaScript,Python, MATLAB,SASS等語言,對於資料可視化有獨特見解,曾參與工商銀行網站建設,某電商平臺的設計,開發,及最後測試上線全部流程。


主題:人工智慧的時代已來,不要讓自己輸在起跑線上

 

課程收益

1、分塊解析:“人工智慧”是什麼

2、行業內情:人工智慧就業前景如何,真的有那麼好嗎?

3、實戰教學:python語言環境

直播時間:1月29日周一19:30-21:30


 主題:2小時破冰爬蟲技術 – 抓取51job職位信息


課程收益

1、直白解答:海量資料從哪來?

2、乾貨分享:爬蟲抓取資料的有哪些流程?

3、實戰教學:python實現(BeautifulSoup)

直播時間:1月31日周三19:30-21:30

 

主題:人工智慧應用:垃圾郵件分類技巧解析


課程收益

1、掌握貝葉斯公式

2、掌握垃圾郵件過濾原理

3、郵箱過濾技術實操演示

直播時間:2月2日周五19:30-21:30

掃碼關註公眾號

回覆“直播”即可獲得免費看課的資格~


更多驚喜請閱讀原文

赞(0)

分享創造快樂