色视频免费国产观看,无码精品一区二区三区免费视频,日韩不卡视频在线

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。

1.Proxy 的設置

urllib2 默認會使用環境變量 http_proxy 來設置 HTTP Proxy。

如果想在程序中明確控制 Proxy 而不受環境變量的影響，可以使用代理。

新建test14來實現一個簡單的代理Demo：

這里要注意的一個細節，使用 urllib2.install_opener() 會設置 urllib2 的全局 opener 。

這樣后面的使用會很方便，但不能做更細致的控制，比如想在程序中使用兩個不同的 Proxy 設置等。

比較好的做法是不使用 install_opener 去更改全局的設置，而只是直接調用 opener 的 open 方法代替全局的 urlopen 方法。

2.Timeout 設置
在老版 Python 中（Python2.6前），urllib2 的 API 并沒有暴露 Timeout 的設置，要設置 Timeout 值，只能更改 Socket 的全局 Timeout 值。

在 Python 2.6 以后，超時可以通過 urllib2.urlopen() 的 timeout 參數直接設置。

3.在 HTTP Request 中加入特定的 Header

要加入 header，需要使用 Request 對象：

對有些 header 要特別留意，服務器會針對這些 header 做檢查
User-Agent : 有些服務器或 Proxy 會通過該值來判斷是否是瀏覽器發出的請求
Content-Type : 在使用 REST 接口時，服務器會檢查該值，用來確定 HTTP Body 中的內容該怎樣解析。常見的取值有：
application/xml ：在 XML RPC，如 RESTful/SOAP 調用時使用
application/json ：在 JSON RPC 調用時使用
application/x-www-form-urlencoded ：瀏覽器提交 Web 表單時使用
在使用服務器提供的 RESTful 或 SOAP 服務時， Content-Type 設置錯誤會導致服務器拒絕服務

4.Redirect
urllib2 默認情況下會針對 HTTP 3XX 返回碼自動進行 redirect 動作，無需人工配置。要檢測是否發生了 redirect 動作，只要檢查一下 Response 的 URL 和 Request 的 URL 是否一致就可以了。

如果不想自動 redirect，除了使用更低層次的 httplib 庫之外，還可以自定義HTTPRedirectHandler 類。

5.Cookie

urllib2 對 Cookie 的處理也是自動的。如果需要得到某個 Cookie 項的值，可以這么做：

運行之后就會輸出訪問百度的Cookie值：

6.使用 HTTP 的 PUT 和 DELETE 方法

urllib2 只支持 HTTP 的 GET 和 POST 方法，如果要使用 HTTP PUT 和 DELETE ，只能使用比較低層的 httplib 庫。雖然如此，我們還是能通過下面的方式，使 urllib2 能夠發出 PUT 或DELETE 的請求：

7.得到 HTTP 的返回碼

對于 200 OK 來說，只要使用 urlopen 返回的 response 對象的 getcode() 方法就可以得到 HTTP 的返回碼。但對其它返回碼來說，urlopen 會拋出異常。這時候，就要檢查異常對象的 code 屬性了：

8.Debug Log

使用 urllib2 時，可以通過下面的方法把 debug Log 打開，這樣收發包的內容就會在屏幕上打印出來，方便調試，有時可以省去抓包的工作

這樣就可以看到傳輸的數據包內容了：

9.表單的處理

登錄必要填表，表單怎么填？

首先利用工具截取所要填表的內容。
比如我一般用firefox+httpfox插件來看看自己到底發送了些什么包。
以verycd為例，先找到自己發的POST請求，以及POST表單項。
可以看到verycd的話需要填username,password,continueURI,fk,login_submit這幾項，其中fk是隨機生成的（其實不太隨機，看上去像是把epoch時間經過簡單的編碼生成的），需要從網頁獲取，也就是說得先訪問一次網頁，用正則表達式等工具截取返回數據中的fk項。continueURI顧名思義可以隨便寫，login_submit是固定的，這從源碼可以看出。還有username，password那就很顯然了：

10.偽裝成瀏覽器訪問
某些網站反感爬蟲的到訪，于是對爬蟲一律拒絕請求。

這時候我們需要偽裝成瀏覽器，這可以通過修改http包中的header來實現

11.對付"反盜鏈"
某些站點有所謂的反盜鏈設置，其實說穿了很簡單，就是檢查你發送請求的header里面，referer站點是不是他自己，所以我們只需要像把headers的referer改成該網站即可，以cnbeta為例：

headers是一個dict數據結構，你可以放入任何想要的header，來做一些偽裝。

例如，有些網站喜歡讀取header中的X-Forwarded-For來看看人家的真實IP，可以直接把X-Forwarde-For改了。

久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

Python爬蟲基礎知識：urllib2的使用技巧

久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

Python爬蟲基礎知識：urllib2的使用技巧

相關新聞