久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

互聯網爬蟲是一個很有意思的技術,借由爬蟲,我們可以做到很多好玩的事情——這其中就包括爬取評論。

詞云就是個更好玩的技術,通過技術方法分析詞語出現頻率,生成可視化的圖形,將文字內容用圖形呈現,想想就很意思。

這次,我們就試著把這兩個技術結合起來吧。

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

前言

網易云音樂一直是我向往的“神壇“,聽音樂看到走心的評論的那一刻,高山流水。于是今天來抓取一下歌曲的熱門評論。并做成詞云來展示,看看相對于這首歌最讓人有感受的評論內容是什么。

做成詞云的好處就是直觀以及美觀, 其他的我也想不出來有什么了。

抓數據

要想做成詞云,首先得有數據才行。于是需要一點點的爬蟲技巧。

  • 抓包分析
  • 加密信息處理
  • 抓取熱門評論內容

01

抓包分析

使用Chrome控制臺。我們可以輕松的找到評論所在的鏈接。如下圖:

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

現在URL算是找到了,下一步就是進行數據抓取了。但是簡單嘗試了一下,發現并不能獲取到詳細的信息,而是返回了空空的字符串。
再次查看hreaders的信息,發現瀏覽器使用的是POST的方式進行的請求。具體字段如下圖:

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

02

加密信息處理

然后經過我的測試,直接把瀏覽器上這倆數據拿過來就可以。但是要想真正的解決這個加密處理,還需要有點加解密的只是存儲。GitHub上有大牛分析了網易云音樂的字段加密的詳情。有興趣的可以搜索一下下面的文章參考一下。

網易云音樂新登錄API分析

這里我就使用這么個臨時的方法好了,而且對于不同的歌曲是可以重用的。待會我們可以驗證一下。

03

抓取熱門評論內容

從第一步拿到了接口,而返回的數據就是一個JSON字符串,獲取一下稍作處理即可使用。

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

看下運行的結果吧。

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

詞云

詞云我使用的一個第三方庫Wordcloud,可以使用pip進行安裝。官網上有非常詳細而且清晰的案例可供參考,這里就不重復的描述了。有興趣的參考下面的鏈接。
https://amueller.github.io/word_cloud/auto_examples/index.html

下面就直接上代碼好了。

但是官網也好,其他地方也罷,都沒有說對于中文的處理。然后我找啊找啊的,終于找到了解決辦法,那就是在WordCloud的構造方法上指定字體文件的路徑。這樣就可以解決中文亂碼的問題了。具體設置如下:

WordCloud(random_state=1, font_path = r’C:/Users/Windows/fonts/simkai.ttf’)

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

01

詞云運行效果

最后來對比一下運行的效果。

運用爬蟲抓取網易云音樂搶手談論生成好玩的詞云

總結

來回顧一下,文章針對網易云音樂的熱門評論做了爬取,并通過詞云生成器制作出了相對應的詞云。

可以拓展的地方:

  • 詞云mask,支持特定背景的詞云生成
  • 熱門評論批量爬取,只需要獲取對應歌曲的ID即可。
  • 封裝起來,提取接口,對外界提供熱評服務,或者詞云生成服務。
  • … …

最后,網易真的是國內互聯網的現象級產品——似乎所有的網易產品都天生自帶神評論的屬性。

相關新聞

歷經多年發展,已成為國內好評如潮的Linux云計算運維、SRE、Devops、網絡安全、云原生、Go、Python開發專業人才培訓機構!

    1. 主站蜘蛛池模板: 凤凰县| 威宁| 常宁市| 海南省| 高淳县| 自治县| 互助| 临城县| 开江县| 南岸区| 临朐县| 威海市| 桑植县| 元谋县| 禹城市| 松潘县| 镇原县| 汽车| 泗水县| 唐河县| 会东县| 尼勒克县| 偏关县| 合肥市| 黑山县| 庆城县| 长寿区| 西乌珠穆沁旗| 新闻| 陕西省| 云霄县| 中西区| 宝兴县| 沿河| 祁门县| 永胜县| 青神县| 岳普湖县| 霍林郭勒市| 六盘水市| 吴堡县|