你将学到的
  • 数据采集与查询
  • 机器学习建模方法
  • 数据挖掘项目实战
  • 数据清洗及预处理
  • 应用时间序列分析
  • 数据挖掘项目比赛
课程内容
展开全部
  共59个章节
阶段 0 课程技能准备   展开
共3个章节
lab-live 直播 1 开课直播
直播时间:2020-05-06 19:30:00
阶段 1 数据采集方法   展开
共12个章节
lab-classic 实验 3 常见数据文件存储和读取

知识点: 1.数据文件类型 2.数据文件读取 3.数据文件存储 4.JSON解析 5.数据分块读取

lab-challenge 挑战 1 数据文件格式转换与存储

知识点: 1.数据文件读取 2.数据格式转换 3.数据切片

lab-classic 实验 4 SQL 和 NoSQL 数据库基础

知识点: 1.数据库连接 2.操作SQLite数据库 3.SQL语法介绍 4.MongoDB数据库介绍 5.对MongoDB数据库的增删改查

lab-challenge 挑战 2 SQLite 数据库连接和查询

知识点: 1.数据库连接 2.查询语句的构造 3.使用Pandas读取和查询数据库 4.针对相关的列的聚合计算

lab-classic 实验 5 HTTP 协议及 API 采集数据

知识点: 1.GET方法请求数据 2.Response响应分析 3.请求URL的构造 4.JSON数据读取 5.开发者工具的使用

lab-challenge 挑战 3 使用 GitHub API 采集数据

知识点: 1.URL规律分析 2.请求URL的构造 3.JSON数据解析 4.数据的存储

lab-classic 实验 6 网页数据采集与内容解析

知识点: 1.Pandas模块自动解析表格 2.表格数据的文本匹配 3.XPath节点的选择基本规则 4.lxml模块的使用 5.BeautifulSoup模块中CSS选择器的使用 6.开发者工具中XPath和CSS的路径

lab-challenge 挑战 4 采集实验楼用户基础数据

知识点: 1.XPath解析数据 2.响应状态的判断

lab-classic 实验 7 网络爬虫采集数据方法

知识点: 1.构造CSS选择器路径 2.获取不同页面的内容 3.Scrapy的安装使用 4.Scrapy提取数据方法 5.Scrapy内置方法 6.正则匹配方法介绍

lab-classic 实验 8 Scrapy 爬虫框架基础实践

知识点: 1.ScrapyShell常用命令 2.Response对象的处理 3.Pipeline处理数据 4.数据存取与导出 5.多页面数据爬取

lab-challenge 挑战 5 爬虫采集 Github 仓库数据

知识点: 1.爬虫工程的创建 2.Items文件编写 3.Piplines文件编写 4.GithubURL的构造 5.爬虫的编写

lab-classic 实验 9 第一周挑战解析及课程总结
阶段 2 数据预处理方法   展开
共11个章节
lab-classic 实验 10 数据可视化及初步探索

知识点: 1.可视化与数据挖掘的步骤 2.Matplotlib绘制图形 3.Matplotlib添加图形属性 4.等高线的绘制 5.泊松分布和正态分布的绘制 6.Seaborn密度估计图的绘制 7.单变量变量图的绘制 8.热力图的绘制

lab-challenge 挑战 6 泰坦尼克数据绘图探索

知识点: 1.Seaborn散点图的使用 2.Seaborn计数图的使用 3.子图的绘制

lab-classic 实验 11 数据预处理之数据清洗

知识点: 1.数据有效性判定依据 2.数据清洗常用方法 3.缺失值处理 4.重复值的处理 5.IQR值的计算

lab-classic 实验 12 数据预处理之数据集成

知识点: 1.Merge合并数据方法 2.Join按照索引合并 3.concat轴堆叠方法 4.map数据映射方法 5.Groupby数据分组聚合方法

lab-classic 实验 13 数据预处理之数据转换

知识点: 1.MinMax标准化 2.ZScore标准化 3.独热编码 4.数据离散化

lab-classic 实验 14 数据预处理之数据规约

知识点: 1.主成分分析 2.线性判别分析 3.皮尔逊相关系数 4.卡方检验 5.数据抽样

lab-challenge 挑战 7 USGS 地震数据初步清洗

知识点: 1.数据文件的读取 2.数据集的分割和拼接 3.缺失值处理

lab-challenge 挑战 8 美国地震数据预处理分析

知识点: 1.数据离散化 2.分组聚合计算 3.重复值处理 4.数据类型转换

lab-challenge 挑战 9 世界气候数据预处理分析

知识点: 1.数据归一化 2.数据集合并 3.缺失值处理 4.数据集的分组求和 5.重制索引

lab-challenge 挑战 10 数据关联处理与绘图分析

知识点: 1.MinMax归一化 2.缺失值填充处理 3.坐标轴刻度设置 4.子图的绘制

lab-classic 实验 15 第二周挑战解析及课程总结
阶段 3 数据建模方法(上)   展开
共12个章节
lab-classic 实验 16 数据建模与机器学习介绍

知识点: 1.机器学习的定义 2.监督学习 3.分类与回归 4.监督学习与无监督学习

lab-classic 实验 17 线性回归实现与应用

知识点: 1.一元线性回归 2.平方损失函数 3.最小二乘法及代数求解 4.线性回归实现 5.最小二乘法的矩阵推导

lab-challenge 挑战 11 纽约单车数量回归分析

知识点: 1.数据集的读取 2.数据的提取 3.最小二乘法计算

lab-classic 实验 18 多项式回归实现与应用

知识点: 1.多项式回归介绍 2.多项式回归基础 3.多项式回归预测

lab-challenge 挑战 12 北京住房价格回归预测

知识点: 1.数据去重 2.皮尔逊相关系数的计算 3.特征转换 4.模型评价

lab-classic 实验 19 逻辑回归实现与应用

知识点: 1.线性可分和不可分 2.Sigmoid分布函数 3.逻辑回归模型 4.对数损失函数 5.梯度下降法

lab-challenge 挑战 13 梯度下降法求解线性回归

知识点: 1.数据抽取 2.参数设置 3.梯度的计算 4.参数更新

lab-classic 实验 20 朴素贝叶斯实现与应用

知识点: 1.条件概率 2.贝叶斯定理 3.朴素贝叶斯原理 4.朴素贝叶斯算法实现 5.极大似然估计

lab-challenge 挑战 14 高斯分布函数实现及绘图

知识点: 1.高斯分布公式 2.高斯分布函数

lab-classic 实验 21 划分聚类方法实现与应用

知识点: 1.划分聚类介绍 2.KMeans聚类方法 3.中心点移动过程可视化 4.KMeans算法实现

lab-challenge 挑战 15 聚类算法压缩图像体积

知识点: 1.图像压缩 2.MiniBatchKMeans聚类

lab-classic 实验 22 第三周挑战解析及课程总结
阶段 4 数据建模方法(下)   展开
共12个章节
lab-classic 实验 23 常见机器学习建模方法

知识点: 1.岭回归 2.LASSO回归 3.K近邻算法 4.K折交叉验证 5.朴素贝叶斯算法 6.支持向量机算法 7.决策树算法 8.层次聚类算法 9.密度聚类算法

lab-classic 实验 24 机器学习建模评估方法

知识点: 1.模型评估指标 2.准确率的计算 3.混淆矩阵 4.ROC曲线 5.F1值的意义 6.轮廓系数

lab-challenge 挑战 16 钞票真伪鉴别分类预测

知识点: 1.CSV文件读取 2.分类模型的应用 3.模型的训练与预测

lab-classic 实验 25 Apriori 关联规则学习方法

知识点: 1.关联规则 2.频繁项集 3.支持度 4.置信度 5.示例购物数据 6.关联规则任务 7.Apriori算法 8.关联规则实战

lab-challenge 挑战 17 购物数据关联规则分析

知识点: 1.数据集制作 2.数据预处理 3.Apriori算法的应用 4.关联规则的生成

lab-classic 实验 26 时间序列数据分析处理

知识点: 1.时间生成 2.时间转换 3.时间计算 4.时区 5.时间戳 6.时间戳索引 7.时序检索 8.时序偏移 9.重采样

lab-challenge 挑战 18 股票时间序列数据处理

知识点: 1.时间格式转换 2.时序数据重采样 3.数据排序

lab-classic 实验 27 时间序列数据建模分析

知识点: 1.时序数据特点及分类 2.描述性时序分析 3.统计时序分析 4.平稳时间序列检验 5.自相关图和偏自相关图 6.纯随机性检验 7.ARMA介绍及建模 8.差分运算 9.ARIMA介绍及建模

lab-challenge 挑战 19 农业生产指数建模分析

知识点: 1.数据预处理 2.数据重采样 3.Prophet的使用

lab-classic 实验 28 Prophet 因素分解工具实践

知识点: 1.季节性趋势序列 2.因素分解 3.Prophet工具介绍 4.Prophet工具快速入门 5.趋势变化点 6.乘法模型

lab-challenge 挑战 20 PM2.5 空气指数分析预测

知识点: 1.缺失值处理 2.数据重采样 3.加法模型 4.重制时间索引

lab-classic 实验 29 第四周挑战解析及课程总结
阶段 5 数据挖掘项目实验   展开
共7个章节
lab-classic 实验 30 苹果公司股票数据分析

知识点: 1.数据采集方法 2.数据清洗和预处理 3.绘制K线图 4.绘制相对变化曲线 5.短期交易策略 6.股票长期趋势预测 7.时间序列建模

lab-classic 实验 31 实验楼用户评论情绪分析

知识点: 1.词典模型 2.词袋模型 3.Word2Vec模型 4.数据获取 5.中文分词 6.词向量转换 7.训练情绪分类模型 8.实验楼用户评论情绪分析

lab-classic 实验 32 红楼梦人物可视化分析

知识点: 1.红楼梦数据采集 2.数据清洗和转换 3.分词处理 4.词频统计 5.数据分析及可视化 6.人物关系绘制

lab-classic 实验 33 链家上海租房数据分析

知识点: 1.采集数据 2.数据解析和存储 3.数据清洗和预处理 4.地理位置数据处理 5.链家租房数据分析 6.绘制词云 7.数据可视化

lab-classic 实验 34 豆瓣电影数据统计分析

知识点: 1.豆瓣数据采集方法 2.TOP250电影可视化分析 3.100位演员关系网络

lab-classic 实验 35 携程机票价格数据分析

知识点: 1.机票数据采集 2.获取最低票价数据 3.获取班次详情数据 4.数据清洗和转换 5.数据分析

lab-classic 实验 36 数据可视化分析与应用

知识点: 1.数据可视化概述 2.静态可视化工具 3.动态可视化工具 4.常见图表用法说明 5.BI软件介绍 6.Tableau使用介绍 7.Tableau学习路径

阶段 6 数据挖掘项目挑战   展开
共2个章节
lab-challenge 挑战 21 数据分析与挖掘项目挑战
课程介绍

楼+ 是实验楼精心打造的教学产品,课程由实验楼一线核心研发人员制作并定期直播,且提供助教全程 QQ 群答疑等服务。数据挖掘实战 6 周课程涵盖完整的数据挖掘流程,从数据采集到数据预处理,从数据建模到数据可视化。除此之外,你将最后一周接受真实的数据挖掘项目挑战,我们会对你提交的结果进行人工评阅。

为什么学数据分析与挖掘?

早在上世纪 60 年代,工业界就已经开始使用数字的方式来采集数据。随着数据库技术的发展,很多领域都开始建立数据仓库。存储下来的大量数据不仅用于留作历史记录,更重要的是从中提取潜在的隐含价值信息,而数据挖掘这门学科应运而生。

数据挖掘目前已被众多领域的公司应用,涉及像医疗健康、金融、安全防范、消费零售等。又或者像物流、社交、娱乐等行业也享受数据挖掘技术带来的快速增长。

所以说,了解并学习数据挖掘技术,可能是应对未来的不断发展变化以及拥抱新工作机会的不错选择。

学完可达到水平

学完之后,对于数据分析和数据挖掘全流程有充分认识。对数据采集、数据预处理、数据建模和数据可视化涉及到的技术细节充分掌握。推荐结合自身专业背景,投递擅长领域的数据分析或数据挖掘初级工程师职位。

课程亮点和特色

  • 涵盖了数据挖掘的完整流程,手把手教你完成贴近实战的数据挖掘项目。
  • 学习使用 Python 进行数据挖掘的生态工具圈,并得到充分的实践应用。
  • 涉及数据挖掘的思路引导,BI 工具的使用介绍,以及机器学习理论探索。
  • 动手中学习,随时检验学习效果,享受助教实时答疑及项目作业人工评阅。

课程辅助资料仓库

课程教师

huhuhang 共发布过 59 门课程

查看老师的所有课程 >
实验楼楼+
实验楼会员
会员
开通会员,即刻开始学习
公众号
实验楼学习助手 实验楼订阅号