您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch | 异常检测 |

自学教程:Python爬虫基本库request的基本使用

51自学网 2023-07-22 10:36:34
  python
这篇教程Python爬虫基本库request的基本使用写得很实用,希望能帮到您。

request

用urllib去处理网页验证和Cookies时,需要写Opener和Handler来处理,很不方便,这里我们学习更为强大的库request

get()

实例:

import requests #导入requestshtml = requests.get('https://www.csdn.net/')#使用get方法获取页面信息print(html.text)#调取text属性查看页面代码

添加参数使用param+字典

import requests  # 导入requestsdata = {    'jl': '765',    'kw': 'python',    'kt': '3'}html = requests.get('https://sou.zhaopin.com/',params=data)  # 添加参数print(html.text)  # 调取text属性查看页面代码

添加headers使用headers+字典

import requests  # 导入requestsheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}data = {    'jl': '765',    'kw': 'python',    'kt': '3'}html = requests.get('https://sou.zhaopin.com/',headers=headers,params=data)  # 添加参数print(html.text)  # 调取text属性查看页面代码

高级用法

cookies设置,代理设置等

Cookies

获取cookies:

import requests  # 导入requestsheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}data = {    'jl': '765',    'kw': 'python',    'kt': '3'}html = requests.get('https://blog.csdn.net/qq_40966461/article/details/104974998',headers=headers,params=data)  # 添加参数print(html.cookies)  # 调取text属性查看页面代码for key,value in html.cookies.items():    print(key+'='+value)

很简单,直接获取cookies属性即可

维持会话Session()

在requests中,如果直接利用get()或post()等方法可以做到模拟网页的请求,但是这实际上时相当于不同的会话,相当于用了两个浏览器打开了不同的页面,这时需要用session对象来维护对话

import requests  # 导入requestsheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}data = {    'jl': '765',    'kw': 'python',    'kt': '3'}html = requests.Session().get('https://blog.csdn.net/qq_40966461/article/details/104974998',headers=headers,params=data)  # 添加参数print(html.cookies)  # 调取text属性查看页面代码for key,value in html.cookies.items():    print(key+'='+value)

调用requests模块中get方法时先创建一个Session对象

SSL证书验证

import requests  # 导入requestsheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}response  = requests.get('http://www.12306.cn',headers=headers,verify = False)print(response.status_code)

verify=False即可

代理设置

import requests  # 导入requestsheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}proxies = {    "http":"http://183.166.132.176",    "https":"https://183.166.132.176"}response  = requests.get('http://www.12306.cn',headers=headers,proxies=proxies,verify = False)print(response.status_code)

添加proxies即可,代理可以搜索快代理

超时设置

加参数timeout= 1

身份认证

get中添加参数 auth=(‘username’,‘password’)

OAuth认证方式

到此这篇关于Python爬虫基本库request的基本使用的文章就介绍到这了,更多相关Python爬虫request库内容请搜索wanshiok.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持wanshiok.com!


python中的转义字符串问题
Python中os.system()、subprocess.run()、call()、check_output()的使用案例
51自学网自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1