共计 1655 个字符,预计需要花费 5 分钟才能阅读完成。
提醒:本文最后更新于 2019-06-14 16:18,文中所关联的信息可能已发生改变,请知悉!
全文简介
对于近日让人气愤的长春疫苗事件,京东集团刘强东在微头条发表看法,一时间获取广大粉丝热评,评论人数也是呈现指数级的增长,那么大家对这件事的态度都是什么呢?我们用 Python 来看看大家都在说些什么。
涉及的 Python 爬虫知识:
- APP 抓包
- Scrapy 框架的使用
- 词频统计
- 词云可视化
任务分析
我们想要获得的数据是今日头条里面的微头条,搜索刘强东用户即可找到该微头条信息。然后我们采用手机抓包的方式来发现并获取数据。接下来再用 Python 中的爬虫框架 Scrapy 来抓取数据,并且将数据保存在数据库或者本地文件即可。最后是 NLP(自然语言处理)的简单应用,主要包含词云的展示。
今日头条手机 APP 抓包
对于 APP 数据的抓取首先要用到 APP 抓包工具,这种工具有那么几个,我用的是 Fiddler4 来实现的抓包。需要将你的 WIFI 和你的网络在相同 IP 下。具体的配置方法,大家可以自行进行百度。
我在这里提供几个参考的文章,供大家阅读。
Fiddler 实现手机抓包 –
如何在 Android 手机上实现抓包?
一图胜千言 ,抓包结果图如下图所示:
data:image/s3,"s3://crabby-images/922e5/922e5f73fcef2e0df4453da2ef77488847f2dc1d" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
将得到的网址 url 复制到浏览器(火狐浏览器)里面会变成下图这个样子:
data:image/s3,"s3://crabby-images/4461b/4461b59cea19ac109ac04c928f28daa0e6fb54ab" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
返回的是 JSON 文件类型的数据,很方便提取数据。另外我们精简一下网址,去掉一些无关紧要的查询字符,得到的精简网址如下:
一行太长,进行换行以后的结果:
data:image/s3,"s3://crabby-images/4bbdc/4bbdcfd0f8bdbda067d77740f3c1e2e439441427" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
Scrapy 抓取 APP 数据
要想实现快速并且简单的抓取数据,爬虫框架要熟练掌握!而 Scrapy 框架又是一款功能强大的框架,该模块是爬虫必须掌握的模块!基本的用法大家可以参考 Scrapy 官网提供的教程,这个应该也是目前最好的教程了。
根据上一小节抓取到的网址结构,我们可以发现:
偏移量会随着每次的改变来翻页,所以我们只需在 Scrapy 里面的 start_urls 这么写就好(大概就是爬取了 30 万条):
data:image/s3,"s3://crabby-images/bb6e5/bb6e5966c986705d234922b17eef0a0afedd7c84" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/f2b5b/f2b5b04a6fd5504b4abda1113bc0521ba3ea1ef9" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/1c6d2/1c6d2fd3d88881f23298aa0c9466e586af84f50a" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/64951/6495147dd4c9cbd7e0ac4127f6af1fe1e1f7dd2a" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/b4dff/b4dff79af47e39aa3f857bc1fb69fdfa1265b671" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
数据爬完以后只能获取 12 万数据,到最后数据就是重复了(不再返回数据)!
data:image/s3,"s3://crabby-images/5bbe2/5bbe2d896d5252b68379a1cfdcccdbd4d8a50211" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
词云可视化
接下来对得到的数据进行词云可视化的展示:
宝宝云图:
data:image/s3,"s3://crabby-images/5a45d/5a45db99907f93f69eb06419d37cc2228815bf15" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/5a98d/5a98da441b43539ce796bf24665515a403565269" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/638cf/638cf73ae3a5cb9a79cb3faf649ce09bd540b294" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/0fc61/0fc61bfff80e01685c21db3477fe5022e42ac53c" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/c6b15/c6b154cacf66c762b8aa365a211ed16b076e9bb9" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/9de6a/9de6a73f4176c71bf4d3f36bc74107a9cccd114f" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"
data:image/s3,"s3://crabby-images/8ddbb/8ddbbcf8452a8cb1c14d49f3e58e494bb2b6d2d4" alt="Python 浅析《长生疫苗》刘强东 30 万评论 Python 浅析《长生疫苗》刘强东 30 万评论"