Python腳本完成登入新浪微博并批量下載
今天開新浪微博,才發(fā)現(xiàn)收藏已然有2000+了,足足104頁,形似需求收拾下了,但是一頁頁收拾,難以想象
所以想下載,然后進行獲取處理,轉(zhuǎn)為文檔。
我們關注的:
1.微博正文+評論內(nèi)容
2.圖片
3.視頻鏈接
用Python實現(xiàn)
思路:
1.腳本模擬登陸新浪微博,保存cookie
2.有了cookie信息后,訪問收藏頁面url
3.從第一頁開始,逐步訪問,直到最后,腳本中進行了兩步處理
A.直接下載網(wǎng)頁(下載到本地,當然,要看的時候需要聯(lián)網(wǎng),因為js,圖片神馬的,都還在)
B.解析出微博需要的內(nèi)容,目前只是存下來,還沒有處理
后續(xù)會用lxml通過xpath讀取,轉(zhuǎn)換成文檔,當然,圖片和視頻鏈接也會一同處理,目前未想好處理成什么格式。(困了,明后天接著寫)
模擬登陸微博采用是http://www.douban.com/note/201767245/
里面很詳細,直接拉來用了
步驟:
1.進入自己的微博,右側(cè),收藏,進入收藏頁面
http://weibo.com/fav?leftnav=1&wvr=3.6&page=1
拿前綴
2.修改腳本填寫
用戶名
密碼
前綴http://weibo.com/fav?leftnav=1&wvr=3.6&page=
3.運行腳本
Python weibo_collect.py
結(jié)果:
其中,帶序號的,只能連網(wǎng)時點擊打開有效
tmpcontent是包含所有微博內(nèi)容信息,但目前還沒有處理(還沒想好提取成什么格式,容后再說)
附上腳本