这篇教程用Python爬取指定关键词的微博写得很实用,希望能帮到您。 前几天学校一个老师在做微博的舆情分析找我帮她搞一个用关键字爬取微博的爬虫,再加上最近很多读者问志斌微博爬虫的问题,今天志斌来跟大家分享一下。
一、分析页面我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie 反爬虫,所以我们首先要登陆获取cookie 。 
登陆过后我们就可以获取到自己的cookie 了,然后我们来观察用户是如何搜索微博内容的。 平时我们都是在这个地方输入关键字,来进行搜索微博。 
我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。 
我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。
二、数据采集在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。
1、发起请求通过对请求头进行观察,我们不难构造出请求代码。 
代码如下: key = input("请输入爬取关键字:")for page in range(1,10): params = ( ('containerid', f'100103type=1&q={key}'), ('page_type', 'searchall'), ('page', str(page)), ) response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)
2、提取数据从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。 代码如下: r = response.texttitle = re.findall('"page_title":"(.*?)"',r)comments_count = re.findall('"comments_count":(.*?),',r)attitudes_count = re.findall('"attitudes_count":(.*?),',r)for i in range(len(title)): print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i]) 在这里有一个小问题要注意,微博的标题是用Unicode 编码的,如果直接爬取存储,将存储的是Unicode 编码,在这里要感谢大佬 Python写一个简单上课点名系统(附源码) Qt实现炫酷启动图动态进度条效果 |