Harry potter词频统计 (1)选择一部长度合适的小说,中文、英文或其他语种皆可,长度不低于5万字。 (2)首先对文本进行词(字)频统计,中文可以进行分词统计词频,或不分词统计字频,英文要求统计词频并考虑词语的大小写等价性。 (3)按照词频顺序列出所有的词及其出现次数; (4)绘制排序-数量曲线,验证Zipf-Law(可以用第三方软件绘图)。 (5)利用正则表达式查找文件中的某种特定模式,对这种模式进行提取分析。要求提取出的内容有一定的复杂性(多种匹配结果),提取的数量不低于20个。 (6)完成说明文档,其中包括程序的说明和结果分析的说明。 (7)提交压缩文件,其中包括:源文件,处理的小说文本文件,处理得到的统计数据,项目文档(Markdown格式加上该文件所在目录的图片,也可以是Word或PDF格式,下同)