您当前的位置：首页 > IT编程 > python
\| C语言 \| Java \| VB \| VC \| python \| Android \| TensorFlow \| C++ \| oracle \| 学术与代码 \| cnn卷积神经网络 \| gnn \| 图像修复 \| Keras \| 数据集 \| Neo4j \| 自然语言处理 \| 深度学习 \| 医学CAD \| 医学影像 \| 超参数 \| pointnet \| pytorch \|

自学教程：Python无法用requests获取网页源码的解决方法

51自学网 2022-07-22 18:48:14

python

这篇教程Python无法用requests获取网页源码的解决方法写得很实用，希望能帮到您。

最近在抓取http://skell.sketchengine.eu网页时，发现用requests无法获得网页的全部内容，所以我就用selenium先模拟浏览器打开网页，再获取网页的源代码，通过BeautifulSoup解析后拿到网页中的例句，为了能让循环持续进行，我们在循环体中加了refresh()，这样当浏览器得到新网址时通过刷新再更新网页内容，注意为了更好地获取网页内容，设定刷新后停留2秒，这样可以降低抓不到网页内容的机率。为了减少被封的可能，我们还加入了Chrome，请看以下代码：

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.chrome.service import Servicefrom bs4 import BeautifulSoupimport time,re path = Service("D://MyDrivers//chromedriver.exe")## 配置不显示浏览器chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36') # 创建Chrome实例 。 driver = webdriver.Chrome(service=path,options=chrome_options)lst=["happy","help","evening","great","think","adapt"] for word in lst:    url="https://skell.sketchengine.eu/#result?lang=en&query="+word+"&f=concordance"    driver.get(url)    # 刷新网页获取新数据    driver.refresh()    time.sleep(2)    # page_source
Python实现双因素验证2FA的示例代码
Python