<wbr id="juant"></wbr>
  • <wbr id="juant"></wbr>
    更多課程 選擇中心


    Python培訓

    400-111-8989

    如何用python爬取QQ說說并生成詞云圖?

    • 發布:程序猿tx
    • 來源:掘金
    • 時間:2018-05-15 10:41

    記得我第一次在朋友圈里邊看到詞云圖的時候就顯得特別欣喜,追著問這是怎么做出來的,這不今天python培訓班以python爬取QQ說說并生成詞云圖為例,讓你知道這張詞云圖的來龍去脈。

    python培訓班分享如何用python爬取QQ說說并生成詞云圖

    想當年,哥哥我還是那么風華正茂、幽默風趣...

    言歸正傳,本次使用的是:

    selenium模擬登錄+BeautifulSoup4爬取數據+wordcloud生成詞云圖

    python培訓班分享如何用python爬取QQ說說并生成詞云圖第一步:BeautifulSoup安裝

    pip install beautifulsoup4

    下表列出了主要的解析器,以及它們的優缺點:

    主要的解析器,以及它們的優缺點

    python培訓班分享如何用python爬取QQ說說并生成詞云圖第二步:selenium模擬登錄

    使用selenium模擬登錄QQ空間,安裝pip install selenium

    我用的是chrom瀏覽器,webdriver.Chrome(),獲取Chrome瀏覽器的驅動。

    這里還需要下載安裝對應瀏覽器的驅動,否則在運行腳本時,會提示:

    chromedriver executable needs to be in PATH錯誤,用的是mac,網上找的一篇下載驅動的文章,https://blog.csdn.net/zxy987872674/article/details/53082896

    同理window的也一樣,下載對應的驅動,解壓后,將下載的**.exe 放到Python的安裝目錄,例如 D:\python 。 同時需要將Python的安裝目錄添加到系統環境變量里。

    qq登錄頁http://i.qq.com,利用webdriver打開qq空間的登錄頁面:

    driver = webdriver.Chrome()

    driver.get("http://i.qq.com")

    利用webdriver打開qq空間的登錄頁面

    打開之后右擊檢查查看頁面元素,發現帳號密碼登錄在login_frame里,先定位到所在的frame,driver.switch_to.frame("login_frame") ,再自動點擊帳號密碼登錄按鈕,自動輸入帳號密碼登錄,并且打開說說頁面,詳細代碼如下:

    打開說說頁面的詳細代碼

    這個時候可以看到已經打開了qq說說的頁面了,注意 部分空間打開之后會出現一個提示框,需要先模擬點擊事件關閉這個提示框。

    部分空間打開之后出現的提示框

    模擬關閉提示框

    同時因為說說內容是動態加載的,需要自動下拉滾動條,加載出全部的內容,再模擬點擊下一頁加載內容。

    python培訓班分享如何用python爬取QQ說說并生成詞云圖第三步:BeautifulSoup爬取說說

    F12查看內容,可以找到說說在feed_wrap這個<div>,<ol>里面的<li>標簽數組里面,具體每條說說內容在<div> class="bd"的<pre>標簽中。

    F12查看內容

    模擬點擊下一頁加載內容

    至此QQ說說已經爬取下來,并且保存在了qq_word文件里。

    python培訓班分享如何用python爬取QQ說說并生成詞云圖第四步:詞云圖

    使用wordcloud包生成詞云圖,pip install wordcloud

    這里還可以使用jieba分詞,我并沒有使用,因為我覺得qq說說的句子讀起來才有點感覺,個人喜好,用jieba分詞可以看到說說高頻次的一些詞語。

    設置下wordcloud的一些屬性,注意 這里要設置font_path屬性,否則漢字會出現亂碼。

    這里還有個要提醒的是,如果使用了虛擬環境的,不要在虛擬環境下運行以下腳本,否則可能會報錯:

    虛擬環境下運行以下腳本可能會報錯

    我就遇到了這種情況,deactivate 退出了虛擬環境再跑的:

    生成詞云圖

    至此,爬取qq說說內容,并生成詞云圖。

    恭喜你閱讀完了本文,打開本文的第一張圖便是我們python爬取QQ說說并生成的詞云圖,如你所見,驚不驚喜?意不意外?對了,您更可以拓展到微信朋友留言、淘寶評論、電影影評等,還不趕緊去試試!如果你還有更多python相關的問題,歡迎你來達內python培訓機構進行咨詢。

    免責聲明:內容和圖片源自網絡,版權歸原作者所有,如有侵犯您的原創版權請告知,我們將盡快刪除相關內容。

    預約申請免費試聽課

    填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

    上一篇:python培訓班解讀|AI人工智能的發展是否會毀滅人類?
    下一篇:python編程也能八卦?

    看看別人是怎么學習Python編程的!

    聽有經驗的人談如何學習Python編程!

    Python爬蟲、Python數據分析、Python開發、Python架構...哪個工資高?

    Python熱度降低了嗎?Python還是一如既往的火嗎?

    • 掃碼領取資料

      回復關鍵字:視頻資料

      免費領取 達內課程視頻學習資料

    • 視頻學習QQ群

      添加QQ群:1143617948

      免費領取達內課程視頻學習資料

    Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

    選擇城市和中心
    黑龍江省

    吉林省

    河北省

    湖南省

    貴州省

    云南省

    廣西省

    海南省

    天天日天天射天天干天天伊|奇米电影|奇米网_奇米首页|奇米首页 百度 好搜 搜狗
    <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>