久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

<center id="pxcdp"></center>

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

技術干貨 2017年9月6日下午3:49 7532

自從看了師傅爬了頂點全站之后，我也手癢癢的，也想爬一個比較牛逼的小說網看看，于是選了宜搜這個網站，好了，馬上開干，這次用的是mogodb數據庫，感覺mysql太麻煩了下圖是我選擇宜搜里面遍歷的網站

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

先看代碼框架圖

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

第一個，肯定先提取排行榜里面每個類別的鏈接啊，然后進入鏈接進行爬取，先看all_theme文件

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

看看運行結果，這是書籍類目的

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

這是構造出的每一個類目里面所有的頁數鏈接，也是我們爬蟲的入口，一共5000多頁

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

接下來是封裝的數據庫操作，因為用到了多進程以及多線程每個進程，他們需要知道那些URL爬取過了、哪些URL需要爬取！我們來給每個URL設置兩種狀態：

outstanding:等待爬取的URL
complete:爬取完成的URL
processing:正在進行的URL。

嗯！當一個所有初始的URL狀態都為outstanding；當開始爬取的時候狀態改為：processing；爬取完成狀態改為：complete；失敗的URL重置狀態為：outstanding。

為了能夠處理URL進程被終止的情況、我們設置一個計時參數，當超過這個值時；我們則將狀態重置為outstanding。

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

接下來是爬蟲主程序

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

讓我們來看看結果吧

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

里面因為很多都是重復的，所有去重之后只有十幾萬本，好失望......

作者：蝸牛仔

來源：http://www.jianshu.com/p/a1c5183f3f4d

————廣告時間————

馬哥教育2017年Python自動化運維開發實戰班，馬哥聯合BAT、豆瓣等一線互聯網Python開發達人，根據目前企業需求的Python開發人才進行了深度定制，加入了大量一線互聯網公司：大眾點評、餓了么、騰訊等生產環境真是項目，課程由淺入深，從Python基礎到Python高級，讓你融匯貫通Python基礎理論，手把手教學讓你具備Python自動化開發需要的前端界面開發、Web框架、大監控系統、CMDB系統、認證堡壘機、自動化流程平臺六大實戰能力，讓你從0開始蛻變成Hold住年薪20萬的Python自動化開發人才。

課程咨詢請長按即可咨詢

Python學習教程 | 用Python爬下十幾萬本小說，再也不會鬧書荒！

Python入門 Python學習

上一篇：Linux運維求職 | 月薪過萬，就靠這四個高逼格技術簡歷制作技巧啦~

下一篇：【馬哥教育早報-103期】量子計算機研究取得新突破+英國政府雇傭網絡專家調查暗網

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

<menu id="dlktz"></menu>

<menuitem id="dlktz"></menuitem><ul id="dlktz"></ul>

<menu id="dlktz"></menu>

主站蜘蛛池模板：敖汉旗| 安康市| 合川市| 会宁县| 衡山县| 双桥区| 崇信县| 田阳县| 宣城市| 新安县| 通江县| 瑞丽市| 黄陵县| 丽水市| 广元市| 改则县| 大埔县| 鄄城县| 明水县| 行唐县| 剑阁县| 吉安市| 永年县| 美姑县| 苏州市| 澄城县| 龙海市| 靖边县| 抚顺市| 乐业县| 寻甸| 界首市| 合水县| 五原县| 哈尔滨市| 潜山县| 祁门县| 阿瓦提县| 若羌县| 兴国县| 北票市|

<ul id="wplys"><rp id="wplys"><small id="wplys"></small></rp></ul>

<center id="wplys"></center>

<form id="wplys"><object id="wplys"><td id="wplys"></td></object></form>