久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

最近想在工作相關(guān)的項目上做技術(shù)改進,需要全而準的車型數(shù)據(jù),尋尋覓覓而不得,所以就只能自己動手豐衣足食,到網(wǎng)上獲(竊)得(取)數(shù)據(jù)了。

汽車之家是大家公認的數(shù)據(jù)做的比較好的汽車網(wǎng)站,所以就用它吧。(感謝汽車之家的大大們這么用心地做數(shù)據(jù),仰慕)

俗話說的好,“十爬蟲九Python”,作為一只java狗,我顫顫巍巍地拿起了Python想要感受一下scrapy的強大。。。

在寫這個爬蟲之前,我用urllib2,BeautifulSoup寫了一個版本,不過效率太差,而且還有內(nèi)存溢出的問題,作為Python小白感覺很無力,所以用scrapy才是正道。

嗯,開搞。

準備工作

 

  1. 安裝Python,版本是2.7

  2. 安裝scrapy模塊, 版本是1.4.0

參考

 

汽車之家車型數(shù)據(jù)爬蟲[https://github.com/LittleLory/codePool/tree/master/Python/autohome_spider]:這是我工程的代碼,以下內(nèi)容需要參照著代碼來理解,就不貼代碼在這里了。

Scrapy中文文檔:這是Scrapy的中文文檔,具體細節(jié)可以參照文檔。感謝Summer同學(xué)的翻譯。

Xpath教程:解析頁面數(shù)據(jù)要用到xpath的語法,簡單了解一下,在做的過程中遇到問題去查一下就可以了。

初始化工程

 

scrapy工程的初始化很方便,在shell中的指定目錄下執(zhí)行scrapy start startproject 項目名稱,就自動化生成了。

執(zhí)行這步的時候遇到了一個問題,拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解決方法是執(zhí)行sudo pip install twisted==13.1.0,應(yīng)該是依賴庫版本不兼容。

目錄結(jié)構(gòu)

 

工程初始化后,scrapy中的各個元素就被構(gòu)建好了,不過構(gòu)建出來的是一副空殼,需要我們往里邊寫入我們的爬蟲邏輯。

初始化后的目錄結(jié)構(gòu)是這樣的:

  • spiders:爬蟲目錄,爬蟲的爬取邏輯就放在個目錄下邊

  • items.py:數(shù)據(jù)實體類,在這里定義我們爬到的數(shù)據(jù)結(jié)構(gòu)

  • middlewares.py:爬蟲中間件(我自己翻譯的哈),在這里定義爬取前、爬取后需要處理的邏輯

  • pipelines.py:數(shù)據(jù)管道,爬取后的數(shù)據(jù)實體會經(jīng)過數(shù)據(jù)管道的處理

  • settings.py:配置文件,可以在這里配置爬蟲的爬取速度,配置中間件、管道是否開啟和先后順序,配置數(shù)據(jù)輸出的格式等。

了解過這些文件的作用后就可以開始寫爬蟲了。

開始吧!

 

首先,確定要爬取的目標數(shù)據(jù)。

我的目標是獲取汽車的品牌、車系、車型數(shù)據(jù),先從品牌開始。

在汽車之家的頁面中尋覓一番后,找到了一個爬蟲的切入點,汽車之家車型大全。這個頁面里有所有品牌的數(shù)據(jù),正是我的目標。不過在觀察的過程中發(fā)現(xiàn),這個頁面里的品牌數(shù)據(jù)是在頁面向下滾動的過程中延遲加載的,這樣我們通過請求這個頁面不能獲取到延遲加載的那部分數(shù)據(jù)。不過不要慌,看一下延遲加載的方式是什么樣的。

打開瀏覽器控制臺的網(wǎng)絡(luò)請求面板,滾動頁面來觸發(fā)延遲加載,發(fā)現(xiàn)瀏覽器發(fā)送了一個異步請求:

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

復(fù)制請求的URL看看:

  • http://www.autohome.com.cn/grade/carhtml/B.html

  • http://www.autohome.com.cn/grade/carhtml/C.html

  • http://www.autohome.com.cn/grade/carhtml/D.html

找到規(guī)律了,每一次加載的URL,都只是改變了對應(yīng)的字母,所以對A到Z分別請求一次就取到了所有的品牌數(shù)據(jù)。

打開http://www.autohome.com.cn/grade/carhtml/B.html看下,發(fā)現(xiàn)頁面的數(shù)據(jù)很規(guī)整,是按照品牌-廠商-車系的層級組織的。嗯,正合我意,那就開爬吧。

編寫Spider

 

在spiders目錄下邊,新建一個brand_spider.py文件,在文件中定義BrandSpider類,這個類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要聲明name變量,這是這個爬蟲的ID;還需要聲明start_urls,這是爬蟲的起點鏈接;再定義一個parse方法,里面實現(xiàn)爬蟲的邏輯。

parse方法的入?yún)⒅校?em style="max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;">response就是對start_urls中的鏈接的請求響應(yīng)數(shù)據(jù),我們要爬取的品牌數(shù)據(jù)就在這里面,我們需要從response中提取出來。從response提取數(shù)據(jù)需要使用xpath語法,參考上邊的xpath教程。

提取數(shù)據(jù)之前,需要先給品牌數(shù)據(jù)定義一個實體類,因為需要把品牌數(shù)據(jù)存到數(shù)據(jù)實體中并落地到磁盤。在items.py文件中定義一個BrandItem類,這個類繼承了scrapy.Item類,類中聲明了爬取到的、要落地的品牌相關(guān)數(shù)據(jù),這就是scrapy的Item類。

定義好品牌實體后,在parse方法中聲明一個BrandItem實例,然后通過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標url等數(shù)據(jù),并設(shè)置到BrandItem實例中,最后通過yield來聚合爬取到的各個品牌數(shù)據(jù)并返回,返回的數(shù)據(jù)會進入pipeline。

編寫Pipeline

 

爬取到的數(shù)據(jù)接著被pipeline.py文件中定義的Pipeline類處理,這個類通常是對傳入的Item實體做數(shù)據(jù)的清洗、排重等工作,可以定義多個Pipeline,依次對Item處理。由于暫時沒有這方面的需要,就不改寫這個文件,保持默認狀態(tài)就好。經(jīng)過pipeline的處理后,數(shù)據(jù)進入數(shù)據(jù)集。

輸出csv格式數(shù)據(jù)

 

對于爬取到的車型數(shù)據(jù),我想以csv的格式輸出,并且輸出到指定目錄下,此時需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'FEED_URI = 'data/%(name)s_%(time)s.csv'兩項,目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲名稱_爬取時間.csv“格式命名。

執(zhí)行爬蟲

 

品牌數(shù)據(jù)的爬蟲編寫完成了,在項目根目錄下執(zhí)行scrapy crawl brand,不出意外的話,在執(zhí)行了brand爬蟲后,會在data目錄下出現(xiàn)一個新的csv文件,并且裝滿了品牌數(shù)據(jù)。

小心被屏蔽

 

不過需要注意一個問題,就是當爬蟲高頻地請求網(wǎng)站接口的時候,有可能會被網(wǎng)站識別出來并且屏蔽掉,因為太高頻的請求會對網(wǎng)站的服務(wù)器造成壓力,所以需要對爬蟲限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬蟲的請求頻率為平均3秒一次。

另外,如果爬蟲發(fā)送的請求頭中沒有設(shè)置user agent也很容易被屏蔽掉,所以要對請求頭設(shè)置user agent。

在項目根目錄下新建user_agent_middlewares.py文件,在文件中定義UserAgentMiddleware類,繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list,存放一些常用的user agent,然后重寫process_request方法,在user_agent_list中隨機選取user agent寫入請求頭中。

車系、車型爬蟲

 

車系爬蟲與上邊的品牌爬蟲類似,實現(xiàn)在spiders/series_spider.py中。

車型爬蟲稍微復(fù)雜一些,實現(xiàn)在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型數(shù)據(jù),同時要解析出更多的URL添加到請求隊列中。而且,車型爬蟲爬取的頁面并不像品牌數(shù)據(jù)頁面那么規(guī)整,所以要根據(jù)URL的特征以及頁面中的特征來調(diào)整解析策略。因此在這里用到了CrawlSpiderRules,具體參照Spider文檔。

總結(jié)

 

以上就實現(xiàn)了一個簡單的汽車之家的車型數(shù)據(jù)爬蟲,其中用到了scrapy中的部分元素,當然還有很多元素沒有涉及到,不過對于一個簡單爬蟲來說足矣。

Tip

 

在用xpath解析頁面的時候,寫出來的xpath語句很可能與預(yù)期不符,而且調(diào)試起來很麻煩,我是用以下方式來提高效率的:

  1. 使用chrome上的XPath Helper插件。安裝好插件,打開目標頁面,按command+shift+x(mac版的快捷鍵)打開插件面板,在面板里輸入xpath語句,就能看到取到的結(jié)果了:

    Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)
  2. 使用scrapy shell調(diào)試。在工程目錄下執(zhí)行scrapy shell http://www.xxxxx.xx,之后就會進入Python的交互終端,這時就可以進行調(diào)試了。執(zhí)行print response.xpath('xxxxx')來驗證xpath語句是否符合預(yù)期。

作者:littlelory
來源:http://www.jianshu.com/p/792e19ed9e1



————廣告時間————

馬哥教育2017年P(guān)ython自動化運維開發(fā)實戰(zhàn)班,馬哥聯(lián)合BAT、豆瓣等一線互聯(lián)網(wǎng)Python開發(fā)達人,根據(jù)目前企業(yè)需求的Python開發(fā)人才進行了深度定制,加入了大量一線互聯(lián)網(wǎng)公司:大眾點評、餓了么、騰訊等生產(chǎn)環(huán)境真是項目,課程由淺入深,從Python基礎(chǔ)到Python高級,讓你融匯貫通Python基礎(chǔ)理論,手把手教學(xué)讓你具備Python自動化開發(fā)需要的前端界面開發(fā)、Web框架、大監(jiān)控系統(tǒng)、CMDB系統(tǒng)、認證堡壘機、自動化流程平臺六大實戰(zhàn)能力,讓你從0開始蛻變成Hold住年薪20萬的Python自動化開發(fā)人才

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)掃描二維碼和更多小伙伴組團學(xué)習(xí)Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

Python神技能 | 使用爬蟲獲取汽車之家全車型數(shù)據(jù)

相關(guān)新聞

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評如潮的Linux云計算運維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機構(gòu)!

    1. 主站蜘蛛池模板: 汾西县| 清苑县| 鄄城县| 龙山县| 瑞丽市| 伊川县| 荃湾区| 睢宁县| 南陵县| 罗源县| 漯河市| 社旗县| 临江市| 汽车| 乐东| 濮阳市| 鄱阳县| 五家渠市| 武宣县| 泰和县| 额济纳旗| 田林县| 天津市| 昌乐县| 井研县| 唐海县| 体育| 高阳县| 鲜城| 碌曲县| 容城县| 宽甸| 咸阳市| 华阴市| 梅州市| 太谷县| 河南省| 象州县| 武定县| 抚宁县| 新民市|