您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：Python爬取几千条相亲文案

51自学网 2022-02-21 10:44:44

python

这篇教程Python爬取几千条相亲文案写得很实用，希望能帮到您。

1.代码的编写过程

我们引入需要用到的库，这里用到Python当中的requests库来发送和接受请求，通过正则表达式re这个库来解析数据

import requestsfrom tenacity import *import reimport time

很多时候对遇到请求超时的情况，因此当出现一次错的时候，我们会多尝试几次，因此这里使用retry装饰器来多次尝试

@retry(stop=stop_after_attempt(5))def do_requests(url):    response = requests.get(url, headers=headers, proxies=proxies, timeout=10)    return response.text

我们抓取的数据包括出生年份、身高/体重、学历、收入、职业、自我介绍、择偶标准、车房情况等等，都是通过正则表达式re库来实现的，

date_of_birth = re.compile("<br/>①出生年月/星座(.*?)<br/>", re.M | re.S)sex = re.compile("<br/>【基本资料】(.*?)<br/>")height = re.compile("<br/>②身高/体重(.*?)<br/>")education = re.compile("<br/>⑤学历(.*?)<br/>")jobs_1 = re.compile("<br/>⑥职业(.*?)<br/>")income = re.compile("<br/>⑦月均收入(.*?)<br/>")married = re.compile("<br/>⑨有无婚史(.*?)<br/>")house_cars = re.compile("<br/>⑧车房情况(.*?)<br/>")self_intro = re.compile("<br/>
Python调用百度AI实现人像分割详解
python中not&nbsp;not&nbsp;x&nbsp;与bool(x)&nbsp;的区别

自学教程：Python爬取几千条相亲文案

目录

1.代码的编写过程