2025年3月30日 星期日 甲辰(龙)年 月廿九 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > Python

python爬虫第七章:(1)selenium简介

时间:11-05来源:作者:点击数:46

selenium简介

  • 需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据,网站(http://scxk.nmpa.gov.cn:81/xk/)

selenium实例化

  • from selenium import webdriver
  • #实例化一个浏览器对象(传入浏览器的驱动成)
  • bro=webdriver.Chrome(executable_path='./chromedriver')
  • #让浏览器发起一个指定url对应请求
  • bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
  • #page_source获取浏览器当前页面的页面源码数据
  • page_text=bro.page_source #这里获取的动态的页面代码
  • #解析企业名称
  • tree=etree.HTML(page_text)

selenium模块的基本使用

问题:selenium模块和爬虫之间具有怎样的关联?

  • 便捷的获取网站中动态加载的数据
  • 便捷实现模拟登录

什么是selenium模块?

  • 基于浏览器自动化的一个模块。

selenium使用流程:

  • 环境安装:pip install selenium
  • 下载一个浏览器的驱动程序(谷歌浏览器)
    • 下载路径:http://chromedriver.storage.googleapis.com/index.html
    • 淘宝下载路径:http://npm.taobao.org/mirrors/chromedriver/
    • 驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672

浏览器版本,

在这里插入图片描述

对应的

在这里插入图片描述

下载解压后,把里面的chromedriver 在放到pycharm里

在这里插入图片描述
在这里插入图片描述
  • 实例化一个浏览器对象
    • from selenium import webdriver
    • #实例化一个浏览器对象(传入浏览器的驱动成)
    • webdriver.Chrome(executable_path='./chromedriver')
  • 编写基于浏览器自动化的操作代码
    • 发起请求:get(url)
      • #让浏览器发起一个指定url对应请求
      • bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
      • #page_source获取浏览器当前页面的页面源码数据
      • page_text=bro.page_source #这里获取的动态的页面代码
      • #解析企业名称
      • tree=etree.HTML(page_text)
    • 标签定位:find系列的方法
    • 标签交互:send_keys(‘xxx’)
    • 执行js程序:excute_script(‘jsCode’)
    • 前进,后退:back(),forward()
    • 关闭浏览器:quit()

编写基于浏览器自动化的操作代码:

  • from selenium import webdriver
  • from lxml import etree
  • from time import sleep
  • bro=webdriver.Chrome(executable_path='./chromedriver')
  • bro.get('https://www.taobao.com/')
  • # page_text=bro.page_source
  • # #数据解析
  • # tree=etree.HTML(page_text)
  • #标签定位
  • search_input=bro.find_element_by_id('q')
  • #标签交互
  • search_input.send_keys('Iphone')
  • #执行一组js程序
  • bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') #x向下滚动一平幕
  • sleep(2)
  • #点击搜索按钮
  • btn=bro.find_element_by_css_selector('.btn-search') #这里填写的是class的属性值
  • btn.click()
  • bro.get('https://www.baidu.com/')
  • sleep(2)
  • #回退
  • bro.back()
  • sleep(2)
  • #前进
  • bro.forward()
  • sleep(5)
  • bro.quit()

selenium使用样例:

  • #http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=af4832c505b749dea76e22a193f873c6
  • #http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=a17b1a0ba1f44ae98699be82f69ff032
  • from selenium import webdriver
  • from lxml import etree
  • from time import sleep
  • #实例化一个浏览器对象(传入浏览器的驱动成)
  • bro=webdriver.Chrome(executable_path='./chromedriver')
  • #让浏览器发起一个指定url对应请求
  • bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
  • #page_source获取浏览器当前页面的页面源码数据
  • page_text=bro.page_source #这里获取的动态的页面代码
  • #解析企业名称
  • tree=etree.HTML(page_text)
  • li_list=tree.xpath('//ul[@id="gzlist"]/li')
  • for li in li_list:
  • name=li.xpath('./dl/@title')[0]
  • post_url=li.xpath('./dl/a/@href')[0]
  • # print(name)
  • # print(post_url)
  • # bro.get(post_url)
  • # page=bro.page_source
  • # tr=etree.HTML(page)
  • # today_list=tr.xpath('/html/body/div[4]/table/tbody/tr')
  • # #print(today_list)
  • # for t in today_list:
  • # name=t.xpath('./td[1]/text()')
  • # #name1 = t.xpath('/td[@id="epsName"]/text()')
  • # print(name)
  • sleep(5) #代表停留5秒,再继续
  • bro.quit()
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门