<wbr id="juant"></wbr>
  • <wbr id="juant"></wbr>
    更多課程 選擇中心


    Python培訓

    400-111-8989

    python3.6實現簡單爬蟲功能,獲取圖片

    • 發布:Python培訓
    • 來源:Python練習題庫
    • 時間:2017-11-24 16:51

    要開始講一下簡單的網絡爬蟲,網絡是web,像一張網一樣,然后爬蟲用的英語是spider,是蜘蛛的意思,意思就是在互聯網上捕捉昆蟲等的蜘蛛,就叫做網絡爬蟲是不是很形象!

    在python3.0以前,網絡爬蟲用的都是urllib和urllib2模塊,在3.0以后這個庫改為urllib.request這個模塊了,在下面的調用方法也是這個模塊。

    首先我們要知道我們在網上爬取什么,比如我們現在就是要將一個獲取網頁圖片的功能,當然了如果你不嫌麻煩可以自己用鼠標右鍵點擊圖片另存為~~~不過我們今天要講的就是用python語言實現這個圖片抓取的功能。

    學這個之前先學一下正則表達式的知識吧,我這里有文章大家自己可以看一下:

    網址:http://blog.sina.com.cn/s/blog_7003de9e0102x0tu.html

    學習完正則表達式之后,我們來看一下百度貼吧上面的圖片怎么獲取。

    打開百度貼吧:https://tieba.baidu.com/p/5306226942

    然后用google瀏覽器查看圖片地址

    發現都是已src開頭以.jpg結尾的

    然后我們寫下如下的代碼:

    #coding=utf-8

    import urllib.request

    import re

    url = "https://tieba.baidu.com/p/5306226942";

    page = urllib.request.urlopen(url)

    html = page.read()

    reg = r'src="(.*?\.jpg)"'

    imgre = re.compile(reg)

    html=html.decode('utf-8')

    imglist = re.findall(imgre,html)

    x = 0

    for imgurl in imglist:

    urllib.request.urlretrieve(imgurl,'%s.jpg' % x)

    x+=1

    作者開始解釋代碼的含義:

    #coding=utf-8 字符編碼是utf-8的字符編碼

    import urllib.request 導入urllib.request 模塊

    import re 導入正在表達式模塊

    url = "https://tieba.baidu.com/p/5306226942"; 設置網頁網址是這個

    page = urllib.request.urlopen(url) 打開網頁

    html = page.read() 讀取網頁文檔

    reg = r'src="(.*?\.jpg)"' 設置正在表達式字符串

    imgre = re.compile(reg) 設置正在表達式字符串變成正則表達式對象然后可以使用

    html=html.decode('utf-8') 把讀出來的網頁編碼集設置為utf-8,這是python3.x以后才規定的,python3.0以前沒有

    imglist = re.findall(imgre,html) 根據正則表達式獲取出符合條件的圖片鏈接

    然后用循環函數for循環圖片

    在循環函數里面用urllib.request.urlretrieve(imgurl,'%s.jpg' % x)函數下載圖片就可以了,然后把圖片名字重新編排了一下,運行之后的效果是這樣的

    圖片就被下載下來了,是不是也很簡單?

    本文內容轉載自網絡,本著分享與傳播的原則,版權歸原作者所有,如有侵權請聯系我們進行刪除!

    預約申請免費試聽課

    填寫下面表單即可預約申請免費試聽!怕錢不夠?可就業掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業?一地學習,可全國推薦就業!

    上一篇:『Python爬蟲』破解JS加密的Cookie教程
    下一篇:python與MySQL的互動:從一個爬蟲開始

    2021年Python面試題及答案匯總詳解

    python數據分析,你需要這些工具

    Python培訓講解二叉樹的三種深度

    Python培訓:如何實現窮舉搜索?

    • 掃碼領取資料

      回復關鍵字:視頻資料

      免費領取 達內課程視頻學習資料

    • 視頻學習QQ群

      添加QQ群:1143617948

      免費領取達內課程視頻學習資料

    Copyright ? 2021 Tedu.cn All Rights Reserved 京ICP備08000853號-56 京公網安備 11010802029508號 達內時代科技集團有限公司 版權所有

    選擇城市和中心
    黑龍江省

    吉林省

    河北省

    湖南省

    貴州省

    云南省

    廣西省

    海南省

    天天日天天射天天干天天伊|奇米电影|奇米网_奇米首页|奇米首页 百度 好搜 搜狗
    <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>