2025年4月2日 星期三 乙巳(蛇)年 正月初三 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 服务器 > 网络服务

Yurun-Crawler 低代码 高性能 分布式爬虫采集框架

时间:12-14来源:作者:点击数:2
CDSY,CDSY.XYZ

宇润爬虫框架 Yurun Crawler 是一个低代码、高性能、分布式爬虫采集框架,这可能是最一把梭的爬虫框架。

Yurun Crawler 基于 imi 框架开发,运行在 Swoole 常驻内存的协程环境。

为什么会开发这个框架?遇上有爬虫相关需求,调研了一些市面上现有的 PHP 爬虫框架,甚至是其它语言的爬虫框架,功能都十分简陋,需要编写的重复代码极多,不够一把梭。

目标

能够用最少的代码,方便快速地实现爬虫采集功能。

愿景

成为宇宙第一爬虫框架,以后提到爬虫就想到 Yurun Crawler 可以一把梭实现!

功能特性

  • 低代码,几乎不需要编写代码,大部分逻辑依靠注解实现
  • 高性能,基于 imi(link:https://www.imiphp.com/) + Swoole(link:https://www.swoole.com/) 常驻内存及协程实现。即便只开一个下载器进程,也足以支撑大量的并发下载任务。
  • 分布式,采集的流程由消息队列推动,依靠 Redis 等中间件实现纯天然的分布式特性
  • 支持下载器并发限流
  • 内置解析能力强,支持:Dom 解析、正则、JSON、Chrome Headless 页面渲染采集
  • 代理 IP 池,支持:MySQL、Redis
  • 支持定时采集
  • 支持模型存储
  • 方便扩展

示例

Demo Example: https://github.com/Yurunsoft/yurun-crawler-example

主要采集逻辑,可通过注解的方式来编写,超级简单:

  • <?php
  • namespace Yurun\CrawlerApp\Module\YurunBlog\Article\Model;
  • use Yurun\Crawler\Module\Parser\Annotation\DomSelect;
  • use Yurun\Crawler\Module\Parser\Enum\DomSelectMethod;
  • use Yurun\Crawler\Module\DataModel\Contract\BaseDataModel;
  • /**
  • * 文章内容模型
  • */
  • class ArticleModel extends BaseDataModel
  • {
  • /**
  • * 标题
  • *
  • * @DomSelect(selector=".article-view h1", method=DomSelectMethod::TEXT)
  • *
  • * @var string
  • */
  • public $title;
  • /**
  • * 内容
  • *
  • * @DomSelect(selector=".article-content", method=DomSelectMethod::HTML)
  • *
  • * @var string
  • */
  • public $content;
  • /**
  • * 时间
  • *
  • * @DomSelect(selector=".article-info .time", method=DomSelectMethod::TEXT)
  • *
  • * @var string
  • */
  • public $time;
  • }

概念

采集项目

有时候,我们会先采集列表页,再采集内容页

列表页、内容页,都是采集项目,他们的下载、解析、处理逻辑可能都不相同

下载器

负责请求网址,下载并存储内容。

多协程的架构下,支持同时下载海量数据。

支持限流。

数据模型

定义需要从页面中,提取的内容属性。

解析器

负责解析下载后的内容,从中提取需要的信息,返回数据模型。

支持:Dom 解析、正则、JSON、Chrome Headless 页面渲染采集。

处理器

解析器解析出数据模型后,交由处理器进行处理。

存储器

负责将解析后的数据存储入库,支持多种存储方式,并且可以自由扩展。

代理 IP 池

实现代理 IP 池抽象,开发者可以很方便地对接不同接口方。

CDSY,CDSY.XYZ
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐