久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

Python面試真題 - 常見的反爬蟲和應對方法?

【Python面試真題】- 常見的反爬蟲和應對方法?

1).通過Headers反爬蟲

從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站都會對Headers的User-Agent進行檢測,還有一部分網(wǎng)站會對Referer進行檢測(一些資源網(wǎng)站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復制到爬蟲的Headers中;或者將Referer值修改為目標網(wǎng)站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。

2).基于用戶行為反爬蟲

還有一部分網(wǎng)站是通過檢測用戶行為,例如同一IP短時間內(nèi)多次訪問同一頁面,或者同一賬戶短時間內(nèi)多次進行相同操作。

大多數(shù)網(wǎng)站都是前一種情況,對于這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲,爬取網(wǎng)上公開的代理ip,檢測后全部保存起來。這樣的代理ip爬蟲經(jīng)常會用到,最好自己準備一個。有了大量代理ip后可以每請求幾次更換一個ip,這在requests或者urllib2中很容易做到,這樣就能很容易的繞過第一種反爬蟲。

對于第二種情況,可以在每次請求后隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網(wǎng)站,可以通過請求幾次,退出登錄,重新登錄,繼續(xù)請求來繞過同一賬號短時間內(nèi)不能多次進行相同請求的限制。

3).動態(tài)頁面的反爬蟲

上述的幾種情況大多都是出現(xiàn)在靜態(tài)頁面,還有一部分網(wǎng)站,我們需要爬取的數(shù)據(jù)是通過ajax請求得到,或者通過JavaScript生成的。首先用Fiddler對網(wǎng)絡請求進行分析。如果能夠找到ajax請求,也能分析出具體的參數(shù)和響應的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的數(shù)據(jù)。

能夠直接模擬ajax請求獲取數(shù)據(jù)固然是極好的,但是有些網(wǎng)站把ajax請求的所有參數(shù)全部加密了。我們根本沒辦法構(gòu)造自己所需要的數(shù)據(jù)的請求。這種情況下就用selenium+phantomJS,調(diào)用瀏覽器內(nèi)核,并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應過程,只是完完整整的把人瀏覽頁面獲取數(shù)據(jù)的過程模擬一遍。

用這套框架幾乎能繞過大多數(shù)的反爬蟲,因為它不是在偽裝成瀏覽器來獲取數(shù)據(jù)(上述的通過添加?Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利selenium+phantomJS能干很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等。

聲明:文章來源于網(wǎng)絡,侵刪!

相關新聞

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評如潮的Linux云計算運維、SRE、Devops、網(wǎng)絡安全、云原生、Go、Python開發(fā)專業(yè)人才培訓機構(gòu)!

    1. 主站蜘蛛池模板: 阳朔县| 平邑县| 元氏县| 安吉县| 根河市| 凤台县| 南宫市| 宁都县| 邵阳县| 临湘市| 德格县| 三河市| 揭东县| 泰和县| 天气| 广河县| 吉隆县| 和林格尔县| 玉林市| 定陶县| 泽普县| 竹溪县| 仁寿县| 始兴县| 青川县| 彭山县| 昆明市| 惠来县| 泾阳县| 天祝| 水城县| 来安县| 阿克苏市| 贵阳市| 锦州市| 腾冲县| 永靖县| 敦化市| 谢通门县| 九龙城区| 房产|