歡迎光臨
每天分享高質量文章

Python資料挖掘:WordCloud詞雲配置過程及詞頻分析


    這篇文章是學習了老曹的微信直播,感覺WordCloud對我的《Python資料挖掘課程》非常有幫助,希望這篇基礎文章對你有所幫助,同時自己也是詞雲的初學者,強烈推薦老曹的博客供大家學習。如果文章中存在不足或錯誤的地方,還請海涵~

一. 安裝WordCloud

        在使用WordCloud詞雲之前,需要使用pip安裝相應的包。
     

  pip install WordCloud     

  pip install jieba

        其中WordCloud是詞雲,jieba是結巴分詞工具。
        問題:在安裝WordCloud過程中,你可能遇到的第一個錯誤如下。
       

error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27

        解決方法也很簡單,下載VCForPython27安裝(Microsoft Visual C++ Compiler for Python 2.7)。但是在微軟下載總是沒響應。
        這是最大的問題,下麵我自己提供一個CSDN的地址供大家下載。下載完成,可以進行安裝響應的庫函式。
        資源地址:http://download.csdn.net/detail/eastmount/9788218

        安裝完成之後,可以正常運行代碼啦。

二. 簡單詞雲代碼

        下麵這部分代碼參考老曹的,希望對你有所幫助。
        老曹說:什麼是詞雲呢?詞雲又叫文字雲,是對文本資料中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似雲一樣的彩色圖片,從而一眼就可以領略文本資料的主要表達意思。
        代碼如下:

        運行結果如下所示:

        這是中文編碼問題,下麵講解解決方法。

三. 中文編碼錯誤及解決

        在WordCloud安裝的目錄下找到WordCloud.py檔案,對原始碼進行修改。

        編輯wordcloud.py,找到FONT_PATH,將DroidSansMono.ttf修改成msyh.ttf。這個msyh.ttf表示微軟雅黑中文字體。

        註意,此時運行代碼還是報錯,因為需要在同一個目錄下放置msyh.ttf字體檔案供程式呼叫,如下圖所示,這是原來的字體DroidSansMono.ttf。

        此時的運行結果如下所示,這是分析CSDN多篇博客的主題,”閱讀”和”評論”比較多。

        也可以採用下麵的代碼:
       

 wordcloud = WordCloud(font_path = ‘MSYH.TTF’).fit_words(word)

四. 照片背景的詞雲代碼

        下麵進一步深入,假設存在一個圖 “sss3.png”,核心代碼如下:

        運行結果如下圖所示,顯示我和寶寶我倆最近兩月的聊天記錄。

  

       一弦一柱思華年,一co一ding夢嚴賢。
       希望文章對你有所幫助,尤其是結合資料庫做資料分析的人。還是那句話,如果剛好需要這部分知識,你就會覺得非常有幫助,否則只是覺得好玩,這也是在線筆記的作用。如果文章中存在不足或錯誤的地方,還請海涵~

        (By:Eastmount 2017-03-21 下午2點  http://blog.csdn.net/eastmount/ )


《Linux雲計算及運維架構師高薪實戰班》2018年09月17日即將開課中,120天衝擊Linux運維年薪30萬,改變速約~~~~

    *宣告:推送內容及圖片來源於網絡,部分內容會有所改動,版權歸原作者所有,如來源信息有誤或侵犯權益,請聯繫我們刪除或授權事宜。

    – END –


    更多Linux好文請點擊【閱讀原文】

    ↓↓↓

    赞(0)

    分享創造快樂