流式实时日志分析系统——《Spark 最佳实践》 免费

关注
1314 人学过 61人关注 7人评论

我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景。比如百度统计,它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析,比如安全分析,用来识别 CC 攻击、 SQL 注入分析、脱库等。在本课程中,我们将基于 Spark Streaming 流式计算框架,简单地实现一个类似于百度分析的系统。本课程源自图灵教育的《Spark 最佳实践》第6章第3节,感谢图灵教育授权实验楼发布。

实验1
流式分析系统实现
知识点: 1.Python模拟生成Nginx日志 2.SparkStreaming编程 3.服务器访问日志分析方法
登录 后发表评论
最新评论
全部 第1节

0% Complete

加载中,精彩就在后面...

卡住了?点击重试