您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：用Python爬取指定关键词的微博

51自学网 2022-02-21 10:48:25

python

这篇教程用Python爬取指定关键词的微博写得很实用，希望能帮到您。

一、分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫，所以我们首先要登陆获取cookie。

登陆过后我们就可以获取到自己的cookie了，然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字，来进行搜索微博。

我通过在开发者模式下对这个页面观察发现，它每次对关键字发起请求后，就会返回一个XHR响应。

我们现在已经找到数据真实存在的页面了，那就可以进行爬虫的常规操作了。

二、数据采集

在上面我们已经找到了数据存储的真实网页，现在我们只需对该网页发起请求，然后提取数据即可。

1、发起请求

通过对请求头进行观察，我们不难构造出请求代码。

代码如下：

key = input("请输入爬取关键字:")for page in range(1,10):   params = (       ('containerid', f'100103type=1&q={key}'),       ('page_type', 'searchall'),       ('page', str(page)),   )   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)

2、提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取，但是经过我实际测试发现，用正则来提取是最为简单方便的，所以这里展示的是正则提取的方式，有兴趣的读者可以尝试用字典方式来提取数据。