詳解python 破解網(wǎng)站反爬蟲的兩種簡單方法
最近在學(xué)爬蟲時發(fā)現(xiàn)許多網(wǎng)站都有自己的反爬蟲機(jī)制,這讓我們沒法直接對想要的數(shù)據(jù)進(jìn)行爬取,于是了解這種反爬蟲機(jī)制就會幫助我們找到解決方法。
(一) 判別身份
首先我們看一個例子,看看到底什么時候反爬蟲。
我們還是以 豆瓣電影榜top250(https://movie.douban.com/top250) 為例。
這是段簡單的請求與網(wǎng)站連接并打印獲取數(shù)據(jù)的代碼,我們來看看它的運行結(jié)果。
我們可以發(fā)現(xiàn)我們什么數(shù)據(jù)都沒有獲取到,這就是由于這個網(wǎng)站有它的身份識別功能,把我們識別為了爬蟲,拒絕為我們提供數(shù)據(jù)。不管是瀏覽器還是爬蟲訪問網(wǎng)站時都會帶上一些信息用于身份識別。而這些信息都被存儲在一個叫請求頭(request headers) 的地方。而這個請求頭中我們只需要了解其中的一個叫user-agent(用戶代理) 的就可以了。user-agent里包含了操作系統(tǒng)、瀏覽器類型、版本等信息,通過修改它我們就能成功地偽裝成瀏覽器。
下面我們來看怎么找這個user-agent吧。
首先得打開瀏覽器,隨便打開一個網(wǎng)站,再打開開發(fā)者工具。
再點擊network標(biāo)簽,接著點第一個請求,再找到Request Headers,最后找到user-agent字段。(有時候可能點擊network標(biāo)簽后是空白的,這時候刷新下網(wǎng)頁就好啦!)
找到請求頭后,我們只需要把他放進(jìn)一個字典里就好啦,具體操作見下面代碼。
現(xiàn)在我們再來看部分輸出結(jié)果。
我們可以發(fā)現(xiàn)已經(jīng)將該網(wǎng)站的HTML文件全部爬取到了,至此第一種方法就將完成了。下面我們來看第二種方法。
(二) IP限制
IP(Internet Protocol) 全稱互聯(lián)網(wǎng)協(xié)議地址,意思是分配給用戶上網(wǎng)使用的網(wǎng)際協(xié)議的設(shè)備的數(shù)字標(biāo)簽。它就像我們身份證號一樣,只要知道你的身份證號就能查出你是哪個人。
當(dāng)我們爬取大量數(shù)據(jù)時,如果我們不加以節(jié)制地訪問目標(biāo)網(wǎng)站,會使網(wǎng)站超負(fù)荷運轉(zhuǎn),一些個人小網(wǎng)站沒什么反爬蟲措施可能因此癱瘓。而大網(wǎng)站一般會限制你的訪問頻率,因為正常人是不會在 1s 內(nèi)訪問幾十次甚至上百次網(wǎng)站的。所以,如果你訪問過于頻繁,即使改了 user-agent 偽裝成瀏覽器了,也還是會被識別為爬蟲,并限制你的 IP 訪問該網(wǎng)站。
因此,我們常常使用 time.sleep() 來降低訪問的頻率,比如上一篇博客中的爬取整個網(wǎng)站的代碼,我們每爬取一個網(wǎng)頁就暫停一秒。
部分運行結(jié)果:
至此兩種比較簡單的應(yīng)對反爬蟲方法就講完啦,希望能對大家有所幫助,如果有問題,請及時給予我指正,感激不盡!
原文鏈接:https://blog.csdn.net/qq_41564422/article/details/104212511
文章轉(zhuǎn)載:Python編程學(xué)習(xí)圈
(版權(quán)歸原作者所有,侵刪)