用Python对哈利波特系列小说进行情感分析

原创

mb5fe94cdd5807a 2021-01-01 11:43:42 ©著作权

文章标签 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mb5fe94cdd5807a的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python&Stata数据采集与数据分析实证前沿寒假工作坊现在开始招生了，有兴趣的同学和老师可以戳进来了解

准备数据 现有的数据是一部小说放在一个txt里，我们想按照章节(列表中第一个就是章节1的内容，列表中第二个是章节2的内容)进行分析，这就需要用到正则表达式整理数据。

比如我们先看看** 01-Harry Potter and the Sorcerer's Stone.txt" **里的章节情况，我们打开txt

经过检索发现，所有章节存在规律性表达


[
Chapter
][空格][整数][换行符\n][可能含有空格的英文标题][换行符\n]

我们先熟悉下正则，使用这个设计一个模板pattern提取章节信息熟悉上面的正则表达式操作，我们想更精准一些。我准备了一个test文本，与实际小说中章节目录表达相似，只不过文本更短，更利于理解。按照我们的预期，我们数据中只有5个章节，那么列表的长度应该是5。这样操作后的列表中第一个内容就是章节1的内容，列表中第二个内容是章节2的内容。能得到哈利波特的章节内容列表