基于 Laravel 实现多进程通用爬虫 训练营

关注
3人关注 0人评论

课程将实现一个多进程的通用爬虫,用户在管理界面添加网站地址,点击 Start 过后,后台启动进程对该地址进行爬取,并将页面中包含的 URI 放回到缓存池中等待下一步爬取,最终实现对整个站点数据的采集。管理界面使用 Laravel 实现,后台通过 HttpClient、dom-crawler、RabbitMQ、Redis 等多种技术的配合,完成一个通用的,并发的,可扩展的爬虫架构。

¥127.20 ¥319.00 特价
优惠 标准会员再享 8 优惠,本课程仅需 101.76 立即开通>
立即购买
实验1
项目简介
知识点: 1.爬虫的概念 2.项目概述 3.功能列表 4.技术选型
实验2
通用爬虫架构设计
知识点: 1.通用爬虫技术架构 2.爬虫库技术架构 3.管理界面扩展爬虫库 4.爬取站点执行流程
实验3
创建爬虫项目
知识点: 1.Laravel框架安装 2.Composer简单使用 3.爬虫目录结构的简单搭建
实验4
管理控制台实现
知识点: 1.使用Laravel开发web应用 2.模型 3.视图 4.控制器
挑战1
管理界面多语言支持
知识点: 1.本地化配置 2.多语言支持
挑战2
操作状态提示
知识点: 1.模板展示session数据 2.FlashedSessionData的使用
实验5
爬虫库核心模块Context
知识点: 1.Context模块简介 2.Context设计思路 3.代码文件创建 4.代码文件详解
实验6
爬虫库核心模块Client
知识点: 1.Client模块简介 2.Client设计思路 3.Client文件创建 4.Client模块相关代码详解
实验7
爬虫库核心模块Result
知识点: 1.Result模块简介 2.Result设计思路 3.Result文件创建 4.Result代码详解
实验8
爬虫核心模块Executor
知识点: 1.Executor模块简介 2.Executor设计思路 3.Executor文件创建 4.Executor代码详解
实验9
爬虫库核心模块UriMap
知识点: 1.UriMap模块简介 2.UriMap设计思路 3.UriMap文件创建 4.UriMap代码详解
实验10
爬虫核心模块Crawler
知识点: 1.Crawler模块简介 2.Crawler设计思路 3.Crawler文件创建 4.Crawler代码详解
挑战3
实现 JsonCrawler 爬取 API
知识点: 1.HTTP请求及回复 2.JSON请求操作 3.phphttp 4.PHP爬虫架构
实验11
爬虫核心模块Filter
知识点: 1.Filter模块简介 2.Filter设计思路 3.Filter文件创建 4.Filter代码详解
挑战4
实现CssFilter爬取CSS文件地址
知识点: 1.Symfonydomcrawler 2.HTML基本语法 3.PHP爬虫架构
实验12
爬虫库核心模块Processor
知识点: 1.Processor模块简介 2.Processor设计思路 3.Processor文件创建 4.Processor代码详解 5.UriExecutorProcessor
挑战5
实现CssProcessor下载CSS文件
知识点: 1.PHP文件操作 2.HTTP请求 3.phphttp 4.PHP爬虫架构
实验13
使用 Docker-Compose 部署与启动项目
知识点: 1.Docker 2.Dockerfile 3.DockerCompose 4.composer
登录 后发表评论
最新评论
全部 第1节 第2节 第3节 第4节 管理界面多语言支持 操作状态提示 第5节 第6节 第7节 第8节 第9节 第10节 实现 JsonCrawler 爬取 API 第11节 实现CssFilter爬取CSS文件地址 第12节 实现CssProcessor下载CSS文件 第13节
课程
咨询

0% Complete

加载中,精彩就在后面...

卡住了?点击重试