流式实时日志分析系统——《Spark 最佳实践》 免费

关注
701 人学过 43人关注 4人评论

我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景。比如百度统计,它可以做流量分析、来源分析、网站分析、转化分析。另外还有特定场景分析,比如安全分析,用来识别 CC 攻击、 SQL 注入分析、脱库等。在本课程中,我们将基于 Spark Streaming 流式计算框架,简单地实现一个类似于百度分析的系统。本课程源自图灵教育的《Spark 最佳实践》第6章第3节,感谢图灵教育授权实验楼发布。

第1节
流式分析系统实现
知识点: 1.Python模拟生成Nginx日志2.SparkStreaming编程3.服务器访问日志分析方法
登录 后发表评论
最新评论
全部 第1节