使用 Python 批量爬取网站信息

会员
关注

本实验主要通过 Python 实现一个命令行参数控制的爬虫程序,可以批量爬取网站的 URLs、JS 文件及其中的端点、子域名和 DNS 有关的数据信息等,能够匹配自定义正则表达式的字符串,还支持将最终结果导出为 JSON 格式或 CSV 格式。

实验1
课程介绍及项目结构
知识点: 1.项目代码结构解析 2.项目用法演示
实验2
命令行参数解析
知识点: 1.命令行终端显示颜色 2.使用argparse模块实现命令行参数解析 3.通过tempfile模块创建临时文件 4.Python中的父子进程
实验3
请求并返回响应体
知识点: 1.处理用户提供的URL 2.定义用户代理 3.处理请求并返回响应体 4.从响应体中提取具体的信息
实验4
爬取及打印输出
知识点: 1.从robotstxt和sitemapxml文件中提取链接 2.处理URLs并使用线程池来执行函数 3.爬取及打印输出
实验5
插件及效果演示
知识点: 1.插件之查找子域名 2.插件之dnsdumpster 3.插件之支持结果导出 4.组合插件 5.效果演示