楼+之数据分析与挖掘实战第1期 楼+

关注
5人关注 2人评论

楼+ 是实验楼精心打造的教学产品,课程由实验楼一线核心研发人员制作并定 期直播,且提供助教全程 QQ 群答疑等服务。在楼+ 6 周的学习中,你会在实验中动手 学习,在挑战中检验自己的学习成果,在大项目中体验真实工作流程,以此来达到学 习的目的,对只看不动手说 NO!本期主题是数据挖掘实战,6 周课程涵盖完整的数据 挖掘流程,从数据采集到数据预处理,从数据建模到数据可视化。除此之外,你将最 后一周接受真实的数据挖掘项目挑战,我们会对你提交的结果进行人工评阅。

第0周
技能准备
实验1
课程须知
实验2
在线环境使用指南
实验3
技能准备
第1周
数据采集与查询 (未开放)
直播1
开课直播
实验4
数据文件存储和读取
知识点: 1.数据文件类型 2.数据文件读取 3.数据文件存储 4.JSON解析 5.数据分块读取
挑战1
数据文件格式转换
知识点: 1.数据文件读取 2.数据格式转换 3.数据切片
实验5
SQL 和 NoSQL 数据库
知识点: 1.数据库连接 2.操作SQLite数据库 3.SQL语法介绍 4.Mongodb数据库介绍 5.对Mongodb数据库的增删改查
挑战2
数据库连接和查询
知识点: 1.数据库连接 2.查询语句的构造 3.使用Pandas读取和查询数据库 4.针对相关的列的聚合计算
实验6
HTTP 协议及 API 采集数据
知识点: 1.GET方法请求数据 2.Response响应分析 3.请求URL的构造 4.Json数据读取 5.开发者工具的使用
挑战3
使用 API 采集 GitHub 数据
知识点: 1.Issue页面URL规律分析 2.requests请求URL的构造 3.Json数据的解析 4.数据的存储
实验7
网页数据解析与采集
知识点: 1.Pandas模块自动解析表格 2.表格数据的文本匹配 3.XPath节点的选择基本规则 4.lxml模块的使用 5.BeautifulSoup模块中CSS选择器的使用 6.开发者工具中XPath和CSS的路径
挑战4
采集实验楼用户数据
知识点: 1.XPath解析数据 2.响应状态的判断
实验8
使用网络爬虫采集数据
知识点: 1.构造CSS选择器路径 2.获取不同页面的内容 3.Scrapy的安装使用 4.Scrapy提取数据方法 5.Scrapy内置方法 6.正则匹配方法介绍
实验9
Scrapy 爬虫框架基础
知识点: 1.Scrapy安装使用 2.ScrapyShell常用命令 3.Scrapy爬虫项目结构及功能介绍 4.Item容器与结构化数据的存储 5.爬虫的创建及编写 6.Response对象的处理 7.Pipeline处理数据 8.数据存取与导出 9.多页面数据爬取
挑战5
爬取实验楼 Github 仓库数据
知识点: 1.爬虫工程的创建 2.itemspy的编写 3.piplinespy处理数据 4.GithubURL的构造 5.githubpy爬虫的编写
第2周
数据清洁及预处理(未开放)
直播2
上周挑战解析及第二周内容导学
实验10
使用可视化对数据探索
知识点: 1.可视化与数据挖掘的步骤 2.Matplotlib绘制图形 3.Matplotlib添加图形属性 4.等高线的绘制 5.泊松分布和正态分布的绘制 6.Seaborn密度估计图的绘制 7.单变量变量图的绘制 8.热力图的绘制
挑战6
泰坦尼克数据集绘图探索
知识点: 1.Seaborn散点图的使用 2.Seaborn计数图的使用 3.子图的绘制
实验11
数据清洗方法
知识点: 1.数据有效性判定依据 2.数据清洗常用方法 3.缺失值处理 4.重复值的处理 5.IQR值的计算
实验12
数据集成方法
知识点: 1.Merge合并数据方法 2.Join按照索引合并 3.concat轴堆叠方法 4.map数据映射方法 5.Groupby数据分组聚合方法
实验13
数据转换方法
知识点: 1.MinMax标准化 2.ZScore标准化 3.独热编码 4.数据离散化
实验14
数据规约方法
知识点: 1.主成分分析 2.线性判别分析 3.皮尔逊相关系数 4.卡方检验 5.数据抽样
挑战7
美国地震台网数据清洗
知识点: 1.数据文件的读取 2.数据集的分割和拼接 3.缺失值处理
挑战8
地震台网数据处理分析
知识点: 1.数据离散化 2.分组聚合计算 3.重复值处理 4.数据类型转换
挑战9
世界气候数据处理分析
知识点: 1.数据归一化 2.数据集合并 3.缺失值处理 4.数据集的分组求和 5.重制索引
挑战10
数据关联处理与绘图
知识点: 1.MinMax归一化 2.缺失值填充处理 3.坐标轴刻度设置 4.子图的绘制
第3周
机器学习建模方法(未开放)
直播3
上周挑战解析及第三周内容导学
实验15
机器学习介绍
实验16
线性回归
挑战11
纽约东河单车数量回归分析
实验17
多项式回归
挑战12
住房价格回归预测
实验18
逻辑回归
挑战13
梯度下降法求解线性回归问题
实验19
人工神经网络
挑战14
手写字符分类预测
实验20
K 均值聚类
挑战15
使用聚类压缩图像
实验21
其他建模与评估方法
第4周
关联规则与时间序列(未开放)
直播4
上周挑战解析及第四周内容导学
实验22
关联规则学习
挑战16
购物数据关联规则分析
实验23
时间序列数据处理
挑战17
Google 股票时间序列数据处理
实验24
时间序列建模分析
挑战18
农业生产指数建模分析
实验25
加性模型及 Prophet 工具使用
挑战19
伦敦市月平均气温分析预测
实验26
异常检测
挑战20
信用卡欺诈检测
第5周
数据挖掘项目实战(未开放)
直播5
上周挑战解析及第五周内容导学
登录 后发表评论
最新评论
全部 第1节 第2节 第3节 第4节 第5节 数据文件格式转换 第6节 数据库连接和查询 第7节 使用 API 采集 GitHub 数据 第8节 采集实验楼用户数据 第9节 第10节 爬取实验楼 Github 仓库数据 第11节 第12节 泰坦尼克数据集绘图探索 第13节 第14节 第15节 第16节 美国地震台网数据清洗 地震台网数据处理分析 世界气候数据处理分析 数据关联处理与绘图 第17节 第18节 第19节 纽约东河单车数量回归分析 第20节 住房价格回归预测 第21节 梯度下降法求解线性回归问题 第22节 手写字符分类预测 第23节 使用聚类压缩图像 第24节 第25节 第26节 购物数据关联规则分析 第27节 Google 股票时间序列数据处理 第28节 农业生产指数建模分析 第29节 伦敦市月平均气温分析预测 第30节 信用卡欺诈检测 第31节

0% Complete

加载中,精彩就在后面...

卡住了?点击重试