基于 Hadoop 对武侠小说进行词频分析

会员
关注

本课程是 Hadoop 的一个非常基础的应用项目,利用实验楼提供的 Hadoop 环境,对一本武侠小说的文集进行简单的 WordCount 词频统计,从而得到该书中出现频次最高的人名。需要一定的 Hadoop 和 MapReduce 基础。本课程难度为简单,属于入门级别课程,适合对 Hadoop 刚刚入门的用户,甚至没有接触过 Hadoop 的用户也可以按照步骤一步步做出来。

实验1
武侠小说词频统计
知识点: 1.熟悉Hadoop程序开发及执行流程 2.熟悉MapReduce基本原理 3.学习结巴分词用法 4.学习词频统计方法