您当前的位置：首页 > 计算机 > 编程开发 > Python

python爬虫精选01集（初识爬虫）

时间：04-23来源：作者：点击数：49

网络爬虫概述

一、定义

网络蜘蛛、网络机器人，抓取网络数据的程序。
其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越逼真越好。

二、爬取数据目的

获取大量数据，用来做数据分析
公司项目的测试数据，公司业务所需数据

三、企业获取数据方式

公司自有数据
第三方数据平台购买(数据堂、贵阳大数据交易所)
爬虫爬取数据

四、python做爬虫的优势

1、Python ：请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架

2、PHP ：对多线程、异步支持不太好

3、JAVA：代码笨重,代码量大

4、C/C++：虽然效率高,但是代码成型慢

五、爬虫分类

1、通用网络爬虫(搜索引擎使用,遵守robots协议)

	robots协议 ：网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取，

	通用网络爬虫需要遵守robots协议（君子协议）

	https://www.taobao.com/robots.txt

2、聚焦网络爬虫 ：自己写的爬虫程序

六、爬虫爬取数据步骤

1、确定需要爬取的URL地址

2、由请求模块向URL地址发出请求,并得到网站的响应

3、从响应内容中提取所需数据

	①　所需数据,保存

	②　页面中有其他需要继续跟进的URL地址,继续第2步去发请求，如此循环

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:PyautoGui 常用教程(一篇就够) 下一篇:python爬虫精选02集（request请求模块常用操作）

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

首页

学习

工作

生活

兴趣组

电子

计算机

掌上机件

图库

游戏

考试与竞赛

黑板报

国学

外语

下载

故事汇

社区

课程

python爬虫精选01集（初识爬虫）

网络爬虫概述

一、定义

二、爬取数据目的

三、企业获取数据方式

四、python做爬虫的优势

五、爬虫分类

六、爬虫爬取数据步骤