2020国产成人精品视频,性做久久久久久久久,亚洲国产成人久久综合一区,亚洲影院天堂中文av色

分享

花了一周時(shí)間,終于把python爬蟲入門必學(xué)知識(shí)整理出來了

 hanxinhanxin 2020-03-15

Python是近幾年最火熱的編程語言,大家既然看到了爬蟲的知識(shí),想必也了解到python。

很多都說python與爬蟲就是一對(duì)相戀多年的戀人,二者如膠似漆 ,形影不離,你中有我、我中有你,有python的地方絕對(duì)離不開爬蟲,有爬蟲的地方,話題永遠(yuǎn)都繞不開python。

因?yàn)樾【幰舱趯W(xué)習(xí)python編程,所以花了一周時(shí)間,將關(guān)于python爬蟲入門知識(shí)整理出來了,這些知識(shí)個(gè)人覺得是非常重要的,所以希望大家可以收藏起來,不要弄丟哦,畢竟辛苦了這么久。

花了一周時(shí)間,終于把python爬蟲入門必學(xué)知識(shí)整理出來了

什么是爬蟲

爬蟲是一個(gè)程序,這個(gè)程序的目的就是為了抓取萬維網(wǎng)信息資源,比如你日常使用的谷歌等搜索引擎,搜索結(jié)果就全都依賴爬蟲來定時(shí)獲取。

簡(jiǎn)單來說,無論你想獲得哪些數(shù)據(jù),有了爬蟲都可以搞定,不論是文字、圖片、視頻,任何結(jié)構(gòu)化非結(jié)構(gòu)化的都能解決。

爬蟲模塊

re模塊——正則表達(dá)式模塊:

是用于快速從一大堆字符中快速找出想要的子字符串的一種表達(dá)方式,這個(gè)模塊是初學(xué)者必須要弄清楚的,當(dāng)你剛開始用的時(shí)候會(huì)覺得有難度,一旦上手了,你就會(huì)愛上它,邏輯性是非常強(qiáng)的。

os模塊:

對(duì)文件文本的操作,可以創(chuàng)建文件夾,訪問文件夾內(nèi)容等,它會(huì)自適應(yīng)于不同的操作系統(tǒng)平臺(tái),根據(jù)不同的平臺(tái)進(jìn)行相應(yīng)的操作。

比如說我們常見的os.name,“name”顧名思義就是“名字”,這里的名字是指操作系統(tǒng)的名字,主要作用是判斷目前正在使用的平臺(tái),也要注意到該命令不帶括號(hào)。

csv模塊:

爬取出來的數(shù)據(jù)可以以csv的格式保存,可以用office辦公軟件中的Excel表格軟件打開,所以一般都是用于讀文件、寫文件、定義格式。

花了一周時(shí)間,終于把python爬蟲入門必學(xué)知識(shí)整理出來了

基礎(chǔ)的抓取操作

Urllib:

是python內(nèi)置的HTTP請(qǐng)求庫,簡(jiǎn)單的例子:

import urllib.request

response = urllib.request.urlopen('https://blog.csdn.net/weixin_43499626')

print(response.read().decode('utf-8'))

Requests:

requests庫是一個(gè)非常實(shí)用的HTPP客戶端庫,是抓取操作最常用的一個(gè)庫。

各種請(qǐng)求方式:常用requests.get()和requests.post()

import requests

r = requests.get('https://api.github.com/events')

r1 = requests.get('http:///post',data={'key':'value'})

Requests它會(huì)比urllib更加方便,可以節(jié)約我們大量的工作。

花了一周時(shí)間,終于把python爬蟲入門必學(xué)知識(shí)整理出來了

需要登錄的接口

post請(qǐng)求:

直接上代碼,就能看懂的解釋

import requests

url = "http://test"

data = {"key":"value"}

res = requests.post(url=url,data=data)print(res.text)

get請(qǐng)求:

@classmethod

def send_get(cls, url, params, headers):

response = cls.SessionRequest.get(url=url, params=params, headers=headers)

return response.json()

常見的反爬有哪些

從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲(chǔ)存三個(gè)部分。這里我們只討論數(shù)據(jù)采集部分。

通過Headers:

反爬蟲從用戶請(qǐng)求的Headers反爬蟲是最常見的反爬蟲策略,果遇到了這類反爬蟲機(jī)制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標(biāo)網(wǎng)站域名。

基于用戶行為反爬蟲:

同一IP短時(shí)間內(nèi)多次訪問同一頁面,或者同一賬戶短時(shí)間內(nèi)多次進(jìn)行相同操作。[這種防爬,需要有足夠多的ip來應(yīng)對(duì)],對(duì)于這種情況,使用IP代理就可以解決??梢詫iT寫一個(gè)爬蟲,爬取網(wǎng)上公開的代理ip,檢測(cè)后全部保存起來。

動(dòng)態(tài)頁面的反爬蟲:

上述的幾種情況大多都是出現(xiàn)在靜態(tài)頁面,還有一部分網(wǎng)站,我們需要爬取的數(shù)據(jù)是通過ajax請(qǐng)求得到,。首先用Firebug或者HttpFox對(duì)網(wǎng)絡(luò)請(qǐng)求進(jìn)行分析,如果能夠找到ajax請(qǐng)求,也能分析出具體的參數(shù)和響應(yīng)的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模擬ajax請(qǐng)求,對(duì)響應(yīng)的json進(jìn)行分析得到需要的數(shù)據(jù)。

以上就是小編所整理的關(guān)于爬蟲的知識(shí),如果你想要了解到更多python知識(shí),記住關(guān)注小編,或者去“蟻小二”平臺(tái)了解一二哦~

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多