您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 | Transformers | 情感分类 | 知识图谱 |

自学教程:超简单的scrapy实现ip动态代理与更换ip的方法实现

51自学网 2021-10-30 22:48:43
  python
这篇教程超简单的scrapy实现ip动态代理与更换ip的方法实现写得很实用,希望能帮到您。

简单实现ip代理,为了不卖广告,
请自行准备一个ip代理的平台
例如我用的这个平台,每次提取10个ip

在这里插入图片描述

从上面可以看到数据格式是文本,换行是/r/n,访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀http://
例如:http://117.95.41.21:34854

在这里插入图片描述

OK,那现在已经准备好了ip了,先给你们屡一下思路。

ip池和计数器放在setting文件

第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手

更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数

首先是setting文件,其实就是加两句代码

count = {'count': 0}ipPool = []

还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效

在这里插入图片描述

下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池

	# 记得导包	from 你的项目.settings import ipPool, count	import random	import requests	  def process_request(self, request, spider):    # 随机选中一个ip    ip = random.choice(ipPool)    print('当前ip', ip, '-----', count['count'])    # 更换request的ip----------这句是重点    request.meta['proxy'] = ip    # 如果循环大于某个值,就清理ip池,更换ip的内容    if count['count'] > 50:      print('-------------切换ip------------------')      count['count'] = 0      ipPool.clear()      ips = requests.get('你的ip获取的地址')      for ip in ips.text.split('/r/n'):        ipPool.append('http://' + ip)    # 每次访问,计数器+1    count['count'] += 1    return None

最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip

	# 记得导包	from 你的项目.settings import ipPool	import random	import requests	  def start_requests(self):    # 第一次请求发起前先填充一下ip池    ips = requests.get('你的ip获取的地址')    for ip in ips.text.split('/r/n'):      ipPool.append('http://' + ip)

简单的ip代理以及固定次数就更换ip池就完成了

到此这篇关于超简单的scrapy实现ip动态代理与更换ip的方法实现的文章就介绍到这了,更多相关scrapy ip动态代理与更换ip内容请搜索51zixue.net以前的文章或继续浏览下面的相关文章希望大家以后多多支持51zixue.net!


配置python连接oracle读取excel数据写入数据库的操作流程
python-3.5.3安装及一些库安装教程详解
万事OK自学网:51自学网_软件自学网_CAD自学网自学excel、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。