from selenium import webdriver
#实例化一个浏览器对象(传入浏览器的驱动成)
bro=webdriver.Chrome(executable_path='./chromedriver')
#让浏览器发起一个指定url对应请求
bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
#page_source获取浏览器当前页面的页面源码数据
page_text=bro.page_source #这里获取的动态的页面代码
#解析企业名称
tree=etree.HTML(page_text)
问题:selenium模块和爬虫之间具有怎样的关联?
什么是selenium模块?
浏览器版本,
对应的
下载解压后,把里面的chromedriver 在放到pycharm里
from selenium import webdriver
#实例化一个浏览器对象(传入浏览器的驱动成)
webdriver.Chrome(executable_path='./chromedriver')
#让浏览器发起一个指定url对应请求
bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
#page_source获取浏览器当前页面的页面源码数据
page_text=bro.page_source #这里获取的动态的页面代码
#解析企业名称
tree=etree.HTML(page_text)
编写基于浏览器自动化的操作代码:
from selenium import webdriver
from lxml import etree
from time import sleep
bro=webdriver.Chrome(executable_path='./chromedriver')
bro.get('https://www.taobao.com/')
# page_text=bro.page_source
# #数据解析
# tree=etree.HTML(page_text)
#标签定位
search_input=bro.find_element_by_id('q')
#标签交互
search_input.send_keys('Iphone')
#执行一组js程序
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)') #x向下滚动一平幕
sleep(2)
#点击搜索按钮
btn=bro.find_element_by_css_selector('.btn-search') #这里填写的是class的属性值
btn.click()
bro.get('https://www.baidu.com/')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()
sleep(5)
bro.quit()
#http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=af4832c505b749dea76e22a193f873c6
#http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=a17b1a0ba1f44ae98699be82f69ff032
from selenium import webdriver
from lxml import etree
from time import sleep
#实例化一个浏览器对象(传入浏览器的驱动成)
bro=webdriver.Chrome(executable_path='./chromedriver')
#让浏览器发起一个指定url对应请求
bro.get('http://scxk.nmpa.gov.cn:81/xk/') #执行之后自动打开这个表网页
#page_source获取浏览器当前页面的页面源码数据
page_text=bro.page_source #这里获取的动态的页面代码
#解析企业名称
tree=etree.HTML(page_text)
li_list=tree.xpath('//ul[@id="gzlist"]/li')
for li in li_list:
name=li.xpath('./dl/@title')[0]
post_url=li.xpath('./dl/a/@href')[0]
# print(name)
# print(post_url)
# bro.get(post_url)
# page=bro.page_source
# tr=etree.HTML(page)
# today_list=tr.xpath('/html/body/div[4]/table/tbody/tr')
# #print(today_list)
# for t in today_list:
# name=t.xpath('./td[1]/text()')
# #name1 = t.xpath('/td[@id="epsName"]/text()')
# print(name)
sleep(5) #代表停留5秒,再继续
bro.quit()