您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \| 异常检测 \| Transformers \| 情感分类 \| 知识图谱 \|

自学教程：python简单爬虫--get方式详解

51自学网 2021-10-30 22:13:10

python

这篇教程python简单爬虫--get方式详解写得很实用，希望能帮到您。

环境准备

安装第三方库

pip install requestspip install bs4pip install lxml

进行爬虫

1.获取网页数据。

import requestsfrom bs4 import BeautifulSoupurl = "https://cn.bing.com/search?q=爬虫CSDN&qs=n&form=QBRE&sp=-1&pq=爬虫csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/"response = requests.get(self.url)

2.解析网页数据

soup = BeautifulSoup(response.text, 'lxml')

3.选取目标数据。此处key 依据源代码目标标题的位置确定。首先进入开发者模式，后查看目标在html中的位置，右击选择“复制selector”，见下图。

在这里插入图片描述

key = "#b_results > li > div.b_title > h2 > a"soup.select(key)

4.清洗数据

result = {}for i, item in enumerate(data):     result.update({         f'title_{i}': item.get_text(),         f'url_{i}': item.get('href')     }) print(result)

参考

链接:https://www.jb51.net/article/152560.htm

总结

本篇文章就到这里了，希望能够给你带来帮助，也希望您能够多多关注51zixue.net的更多内容！

python三种数据结构及13种创建方法总结
python读写excel数据--pandas详解

自学教程：python简单爬虫--get方式详解

目录

环境准备

进行爬虫

参考

总结