楼+之数据分析与挖掘实战第1期 楼+

关注
15人关注 12人评论

楼+ 是实验楼精心打造的教学产品,课程由实验楼一线核心研发人员制作并定期直播,且提供助教全程 QQ 群答疑等服务。本期主题是数据挖掘实战,6 周课程涵盖完整的数据挖掘流程,从数据采集到数据预处理,从数据建模到数据可视化。除此之外,你将最后一周接受真实的数据挖掘项目挑战,我们会对你提交的结果进行人工评阅。课程辅助仓库:https://github.com/shiyanlou/louplus-dm

第0周
技能准备
实验1
课程须知
知识点: 1.仔细阅读课程须知
实验2
在线环境使用指南
知识点: 1.实验楼Notebook环境使用指南
实验3
技能准备
知识点: 1.请尽力完成课程学习技能准备阶段
第1周
数据采集与查询
直播1
开课直播
实验4
数据文件存储和读取
知识点: 1.数据文件类型 2.数据文件读取 3.数据文件存储 4.JSON解析 5.数据分块读取
挑战1
数据文件格式转换
知识点: 1.数据文件读取 2.数据格式转换 3.数据切片
实验5
SQL 和 NoSQL 数据库
知识点: 1.数据库连接 2.操作SQLite数据库 3.SQL语法介绍 4.Mongodb数据库介绍 5.对Mongodb数据库的增删改查
挑战2
数据库连接和查询
知识点: 1.数据库连接 2.查询语句的构造 3.使用Pandas读取和查询数据库 4.针对相关的列的聚合计算
实验6
HTTP 协议及 API 采集数据
知识点: 1.GET方法请求数据 2.Response响应分析 3.请求URL的构造 4.Json数据读取 5.开发者工具的使用
挑战3
使用 API 采集 GitHub 数据
知识点: 1.Issue页面URL规律分析 2.requests请求URL的构造 3.Json数据的解析 4.数据的存储
实验7
网页数据解析与采集
知识点: 1.Pandas模块自动解析表格 2.表格数据的文本匹配 3.XPath节点的选择基本规则 4.lxml模块的使用 5.BeautifulSoup模块中CSS选择器的使用 6.开发者工具中XPath和CSS的路径
挑战4
采集实验楼用户数据
知识点: 1.XPath解析数据 2.响应状态的判断
实验8
使用网络爬虫采集数据
知识点: 1.构造CSS选择器路径 2.获取不同页面的内容 3.Scrapy的安装使用 4.Scrapy提取数据方法 5.Scrapy内置方法 6.正则匹配方法介绍
实验9
Scrapy 爬虫框架基础
知识点: 1.Scrapy安装使用 2.ScrapyShell常用命令 3.Scrapy爬虫项目结构及功能介绍 4.Item容器与结构化数据的存储 5.爬虫的创建及编写 6.Response对象的处理 7.Pipeline处理数据 8.数据存取与导出 9.多页面数据爬取
挑战5
爬取实验楼 Github 仓库数据
知识点: 1.爬虫工程的创建 2.itemspy的编写 3.piplinespy处理数据 4.GithubURL的构造 5.githubpy爬虫的编写
第2周
数据清洁及预处理
直播2
上周挑战解析及第二周内容导学
实验10
使用可视化对数据探索
知识点: 1.可视化与数据挖掘的步骤 2.Matplotlib绘制图形 3.Matplotlib添加图形属性 4.等高线的绘制 5.泊松分布和正态分布的绘制 6.Seaborn密度估计图的绘制 7.单变量变量图的绘制 8.热力图的绘制
挑战6
泰坦尼克数据集绘图探索
知识点: 1.Seaborn散点图的使用 2.Seaborn计数图的使用 3.子图的绘制
实验11
数据清洗方法
知识点: 1.数据有效性判定依据 2.数据清洗常用方法 3.缺失值处理 4.重复值的处理 5.IQR值的计算
实验12
数据集成方法
知识点: 1.Merge合并数据方法 2.Join按照索引合并 3.concat轴堆叠方法 4.map数据映射方法 5.Groupby数据分组聚合方法
实验13
数据转换方法
知识点: 1.MinMax标准化 2.ZScore标准化 3.独热编码 4.数据离散化
实验14
数据规约方法
知识点: 1.主成分分析 2.线性判别分析 3.皮尔逊相关系数 4.卡方检验 5.数据抽样
挑战7
美国地震台网数据清洗
知识点: 1.数据文件的读取 2.数据集的分割和拼接 3.缺失值处理
挑战8
地震台网数据处理分析
知识点: 1.数据离散化 2.分组聚合计算 3.重复值处理 4.数据类型转换
挑战9
世界气候数据处理分析
知识点: 1.数据归一化 2.数据集合并 3.缺失值处理 4.数据集的分组求和 5.重制索引
挑战10
数据关联处理与绘图
知识点: 1.MinMax归一化 2.缺失值填充处理 3.坐标轴刻度设置 4.子图的绘制
第3周
数据分析建模方法(上)
直播3
上周挑战解析及第三周内容导学
实验15
数据建模与机器学习
知识点: 1.机器学习的定义 2.监督学习 3.分类与回归 4.无监督学习与监督学习的区别
实验16
线性回归
知识点: 1.线性回归介绍 2.一元回归介绍 3.平方损失函数 4.最小二乘法及代数解 5.线性回归Python实现 6.线性回归scikitlearn实现 7.最小二乘法的矩阵推导及实现 8.线性回归预测实战 9.实验总结
挑战11
纽约东河单车数量回归分析
知识点: 1.数据集的读取 2.数据的提取 3.最小二乘法计算
实验17
多项式回归
知识点: 1.多项式回归介绍 2.实现2次多项式拟合 3.实现N次多项式拟合 4.使用scikitlearn进行多项式拟合 5.多项式回归预测 6.线性回归预测 7.线性回归与2次回归 8.多项式次数选择
挑战12
住房价格回归预测
知识点: 1.数据去重 2.皮尔逊相关系数的计算 3.特征转换 4.模型评价
实验18
逻辑回归
知识点: 1.线性可分与不可分 2.使用线性回归分类 3.Sigmoid分布函数 4.逻辑回归模型 5.对数损失函数 6.梯度下降法
挑战13
梯度下降法求解线性回归问题
知识点: 1.数据抽取 2.参数设置 3.梯度的计算 4.参数更新
实验19
人工神经网络
知识点: 1.感知机的推导过程 2.感知机计算流程图 3.感知机的损失函数 4.点到直线距离公式 5.随机梯度下降法 6.决策边界线的绘制 7.激活函数 8.BP算法直观认识 9.前向传播 10.后向传播
挑战14
手写字符分类预测
知识点: 1.数据集划分 2.数据可视化 3.神经网络模型的搭建 4.模型预测 5.模型检验
实验20
朴素贝叶斯
知识点: 1.数据清洗 2.分次与过滤停用词 3.朴素贝叶斯分类原理 4.朴素贝叶斯分类 5.词云可视化
实验21
K 均值聚类
知识点: 1.划分聚类介绍 2.KMeans聚类流程 3.KMeans聚类算法可视化 4.中心点移动过程可视化 5.KMeans算法聚类中的K值选择 6.KMeans聚类算法 7.MiniBatchKMeans聚类算法
挑战15
使用聚类压缩图像
知识点: 1.数据变换 2.计算像素种类 3.MiniBatchKMeans 4.绘制图形
第4周
数据分析建模方法(下)
直播4
上周挑战解析及第四周内容导学
实验22
更多机器学习建模方法
知识点: 1.岭回归 2.LASSO回归 3.K近邻算法 4.K折交叉验证 5.朴素贝叶斯算法 6.支持向量机算法 7.决策树算法 8.层次聚类算法 9.密度聚类算法
实验23
机器学习建模常用评估方法
知识点: 1.模型评估指标 2.准确率的计算 3.混淆矩阵 4.ROC曲线 5.F1值的意义 6.轮廓系数
挑战16
钞票真伪鉴别分析预测
知识点: 1.CSV文件读取 2.分类模型的应用 3.模型的训练与预测
实验24
关联规则学习
知识点: 1.关联规则 2.频繁项集 3.支持度 4.置信度 5.示例购物数据 6.关联规则任务 7.Apriori算法 8.关联规则实战
挑战17
购物数据关联规则分析
知识点: 1.数据集制作 2.数据预处理 3.Apriori算法的应用 4.关联规则的生成
实验25
时间序列数据处理
知识点: 1.时间生成 2.时间转换 3.时间计算 4.时区 5.时间戳 6.时间戳索引 7.时序检索 8.时序偏移 9.重采样
挑战18
Google 股票时间序列数据处理
知识点: 1.时间格式转换 2.时序数据重采样 3.数据排序
实验26
时间序列建模分析
知识点: 1.时序数据特点及分类 2.描述性时序分析 3.统计时序分析 4.平稳时间序列检验 5.自相关图和偏自相关图 6.纯随机性检验 7.ARMA介绍及建模 8.差分运算 9.ARIMA介绍及建模
挑战19
农业生产指数建模分析
知识点: 1.数据预处理 2.数据重采样 3.Prophet的使用
实验27
因素分解及 Prophet 工具使用
知识点: 1.季节性趋势序列 2.因素分解 3.Prophet工具介绍 4.Prophet工具快速入门 5.趋势变化点 6.乘法模型
挑战20
成都市 PM2.5 指数分析预测
知识点: 1.缺失值处理 2.数据重采样 3.加法模型 4.重制时间索引
第5周
数据挖掘项目实战
直播5
上周挑战解析及第五周内容导学
实验28
苹果公司股票数据分析预测
知识点: 1.数据采集方法 2.数据清洗和预处理 3.绘制K线图 4.绘制相对变化曲线 5.短期交易策略 6.股票长期趋势预测 7.时间序列建模
实验29
实验楼用户评论情绪分析
知识点: 1.词典模型 2.词袋模型 3.Word2Vec模型 4.数据获取 5.中文分词 6.词向量转换 7.训练情绪分类模型 8.实验楼用户评论情绪分析
实验30
红楼梦人物关系可视化分析
知识点: 1.红楼梦数据采集 2.数据清洗和转换 3.分词处理 4.词频统计 5.数据分析及可视化 6.人物关系绘制
实验31
链家上海租房数据分析
知识点: 1.采集数据 2.数据解析和存储 3.数据清洗和预处理 4.地理位置数据处理 5.链家租房数据分析 6.绘制词云 7.数据可视化
实验32
豆瓣电影评分数据分析预测
知识点: 1.豆瓣数据采集 2.豆瓣数据采集数据概述 3.TOP250电影数据可视化分析 4.周星驰相关的100位演员关系网络 5.电影数据分析 6.电影评论情感分析
实验33
携程机票价格数据分析
知识点: 1.机票数据采集 2.获取最低票价数据 3.获取班次详情数据 4.数据清洗和转换 5.数据分析
实验34
数据可视化分析与 Tableau 应用
知识点: 1.数据可视化概述 2.静态可视化工具 3.动态可视化工具 4.常见图表用法说明 5.BI软件介绍 6.Tableau使用介绍 7.Tableau学习路径
第6周
数据挖掘项目作业
挑战21
数据分析与挖掘项目挑战【12 月 16 日截止】
直播6
结课直播与项目挑战评讲
登录 后发表评论
最新评论
全部 第1节 第2节 第3节 第4节 第5节 数据文件格式转换 第6节 数据库连接和查询 第7节 使用 API 采集 GitHub 数据 第8节 采集实验楼用户数据 第9节 第10节 爬取实验楼 Github 仓库数据 第11节 第12节 泰坦尼克数据集绘图探索 第13节 第14节 第15节 第16节 美国地震台网数据清洗 地震台网数据处理分析 世界气候数据处理分析 数据关联处理与绘图 第17节 第18节 第19节 纽约东河单车数量回归分析 第20节 住房价格回归预测 第21节 梯度下降法求解线性回归问题 第22节 手写字符分类预测 第23节 第24节 使用聚类压缩图像 第25节 第26节 第27节 钞票真伪鉴别分析预测 第28节 购物数据关联规则分析 第29节 Google 股票时间序列数据处理 第30节 农业生产指数建模分析 第31节 成都市 PM2.5 指数分析预测 第32节 第33节 第34节 第35节 第36节 第37节 第38节 第39节 数据分析与挖掘项目挑战【12 月 16 日截止】 第40节

0% Complete

加载中,精彩就在后面...

卡住了?点击重试