您当前的位置:首页 > IT编程 > python
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch |

自学教程:Python无法用requests获取网页源码的解决方法

51自学网 2022-07-22 18:48:14
  python
这篇教程Python无法用requests获取网页源码的解决方法写得很实用,希望能帮到您。

最近在抓取http://skell.sketchengine.eu网页时,发现用requests无法获得网页的全部内容,所以我就用selenium先模拟浏览器打开网页,再获取网页的源代码,通过BeautifulSoup解析后拿到网页中的例句,为了能让循环持续进行,我们在循环体中加了refresh(),这样当浏览器得到新网址时通过刷新再更新网页内容,注意为了更好地获取网页内容,设定刷新后停留2秒,这样可以降低抓不到网页内容的机率。为了减少被封的可能,我们还加入了Chrome,请看以下代码:

from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.chrome.service import Servicefrom bs4 import BeautifulSoupimport time,re path = Service("D://MyDrivers//chromedriver.exe")## 配置不显示浏览器chrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')chrome_options.add_argument('User-Agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36') # 创建Chrome实例 。 driver = webdriver.Chrome(service=path,options=chrome_options)lst=["happy","help","evening","great","think","adapt"] for word in lst:    url="https://skell.sketchengine.eu/#result?lang=en&query="+word+"&f=concordance"    driver.get(url)    # 刷新网页获取新数据    driver.refresh()    time.sleep(2)    # page_source
Python实现双因素验证2FA的示例代码
Python
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1