您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch |

自学教程:Python爬虫Xpath定位数据的两种方法

51自学网 2022-07-22 18:48:28
  python
这篇教程Python爬虫Xpath定位数据的两种方法写得很实用,希望能帮到您。

方法一:直接右键,将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用,使用etree解析html网页

import requestsfrom lxml import etreeimport timeimport socketimport csvfrom selenium import webdriverfrom configparser import ConfigParserfrom selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptions#禁止图片和css加载chrome_options = webdriver.ChromeOptions()prefs = {"profile.managed_default_content_settings.images": 2}chrome_options.add_experimental_option("prefs", prefs)option = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])# 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分# wb = Chrome(options=option)wb=webdriver.Chrome(options=chrome_options)#最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待)wb.maximize_window()wb.get("https://www.tianyancha.com/")wb.implicitly_wait(5)

然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器

data = wb.page_sourcetime.sleep(3)data = wb.page_sourcetime.sleep(3)page_all.append(data)html = etree.HTML(data)company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')print(company )

在这里插入图片描述

方法二:使用@制定标签属性,搜索指定位置

这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.

所以,那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

到此这篇关于Python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关Python爬虫Xpath定位数据内容请搜索wanshiok.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持wanshiok.com!


Python基础语法之变量与数据类型详解
python爬虫之代理ip正确使用方法实例
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1