- from selenium import webdriver
- #实例化一个浏览器对象(传入浏览器的驱动成)
- bro=webdriver.Chrome(executable_path='./chromedriver')
- #让浏览器发起一个指定url对应请求
- bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
- #page_source获取浏览器当前页面的页面源码数据
- page_text=bro.page_source #这里获取的动态的页面代码
- #解析企业名称
- tree=etree.HTML(page_text)
-
问题:selenium模块和爬虫之间具有怎样的关联?
什么是selenium模块?
浏览器版本,
对应的
下载解压后,把里面的chromedriver 在放到pycharm里
- from selenium import webdriver
-
- #实例化一个浏览器对象(传入浏览器的驱动成)
- webdriver.Chrome(executable_path='./chromedriver')
-
- #让浏览器发起一个指定url对应请求
- bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
-
- #page_source获取浏览器当前页面的页面源码数据
- page_text=bro.page_source #这里获取的动态的页面代码
-
- #解析企业名称
- tree=etree.HTML(page_text)
-
-
编写基于浏览器自动化的操作代码:
- from selenium import webdriver
- from lxml import etree
- from time import sleep
-
-
- bro=webdriver.Chrome(executable_path='./chromedriver')
- bro.get('https://www.taobao.com/')
-
- # page_text=bro.page_source
- # #数据解析
- # tree=etree.HTML(page_text)
-
- #标签定位
- search_input=bro.find_element_by_id('q')
- #标签交互
- search_input.send_keys('Iphone')
-
- #执行一组js程序
- bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') #x向下滚动一平幕
- sleep(2)
-
- #点击搜索按钮
- btn=bro.find_element_by_css_selector('.btn-search') #这里填写的是class的属性值
- btn.click()
-
-
- bro.get('https://www.baidu.com/')
- sleep(2)
- #回退
- bro.back()
- sleep(2)
- #前进
- bro.forward()
-
-
- sleep(5)
- bro.quit()
-
- #http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=af4832c505b749dea76e22a193f873c6
- #http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=a17b1a0ba1f44ae98699be82f69ff032
-
- from selenium import webdriver
- from lxml import etree
- from time import sleep
- #实例化一个浏览器对象(传入浏览器的驱动成)
- bro=webdriver.Chrome(executable_path='./chromedriver')
-
- #让浏览器发起一个指定url对应请求
- bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
-
- #page_source获取浏览器当前页面的页面源码数据
- page_text=bro.page_source #这里获取的动态的页面代码
-
- #解析企业名称
- tree=etree.HTML(page_text)
-
- li_list=tree.xpath('//ul[@id="gzlist"]/li')
-
- for li in li_list:
- name=li.xpath('./dl/@title')[0]
- post_url=li.xpath('./dl/a/@href')[0]
- # print(name)
- # print(post_url)
- # bro.get(post_url)
- # page=bro.page_source
- # tr=etree.HTML(page)
- # today_list=tr.xpath('/html/body/div[4]/table/tbody/tr')
- # #print(today_list)
- # for t in today_list:
- # name=t.xpath('./td[1]/text()')
- # #name1 = t.xpath('/td[@id="epsName"]/text()')
- # print(name)
-
- sleep(5) #代表停留5秒,再继续
- bro.quit()
-