前言看到用机器学习方法分析红楼梦的文章不少,也有好几种方法,大观是因为纯文字的分析成本低吧,比较适合初学者练手,先转一两篇文章过来学习。所谓机器学习也是一些数学统计的方法,通过习惯用词来做判断, 也并不是很难。这里判定的维度越多越精准,下面判定仅供参考,仅供娱乐学习! 判定整体思路主要从以下几个方面可以进行粗略进行判定:1.写作习惯每个人写作都有一些与种不同的小习惯,这些小习惯并不会轻易就会发生改
## Python红楼梦人物出场统计 ### 引言 《红楼梦》是中国古代四大名著之一,也是中国古代小说的巅峰之作。其中涉及了众多的人物角色,每个角色都有着自己的故事和命运。为了更好地了解《红楼梦》中各个人物出场情况,我们可以借助Python进行人物出场统计分析。 ### 准备工作 在开始之前,我们需要先准备一份《红楼梦》的文本数据,可以从互联网上下载《红楼梦》的电子版文档,例如txt格式。将
原创 2023-08-26 08:08:44
1071阅读
   《红楼梦》作为我国四大名著之一,古典小说的巅峰之作,粉丝量极其庞大,而红学也经久不衰。所以我们今天通过 Python 来探索下红楼梦里那千丝万缕的人物关系,话不多说,开始整活!一、准备工作红楼梦txt格式电子书一份金陵十二钗+贾宝玉人物名称列表宝玉 nr 黛玉 nr 宝钗 nr 湘云 nr 凤姐 nr 李纨 nr 元春 nr 迎春 nr 探春 nr 惜春 nr 妙玉 nr
    这周老师布置了一项作业,让我们回去将自己喜欢的小说里面的主角出场次数统计出来,我对这个充满了兴趣,但我遇到了三个问题:(1)一开始选了一部超长的小说(最爱之一),但是运行时老是不行,老是显示下图错误:(2)我一开始是像书本那样直接把txt文件名打上去,类似于open(‘two.txt’,'r').read(),但总是出现一下一行字:(3)三个字的人名总是会有几个人只打了
这是全栈数据工程师养成攻略系列教程的第五期:5 实战 西游记用字统计。我们将通过一个简单的实战项目,来巩固之前学习的Python基础。数据所使用的数据可以在我的Github上找到,github.com/Honlan/full…。将整个项目下载下来之后,里面的data文件夹中便包含了课程所需的全部数据和文件。这次我们将用到xyj.txt,里面是小说巨著《西游记》的文本内容,使用UTF8编码,文件大小
先看效果,我们的冠词"热"以929次高居榜首核心知识简单的文件读取 字典 列表 尤其是字典和列表,需要了解清楚才能理解代码步骤读取txt文件,并将所有的标点符号替换为空格将文件分解成一个一个的单词使用字典一个一个的复制单词作为键,遇到相同的键其对应的值就+1将字典转化为列表,并按值大小从大到小排序循环输出结果代码def getTxt(): # 打开相对路径,需要两个省略号点.表示本项目
# Python与《三国演义》人物出场统计 《三国演义》是中国古典文学的瑰宝,其中的人物众多,故事情节错综复杂。对于热爱这部作品的读者来说,了解各个人物出场频率,无疑能加深对故事的理解。本文将通过 Python 语言对《三国演义》中人物出场进行统计,并通过可视化手段展现结果,以便于更直观地理解这一伟大作品。 ## 1. 数据准备 首先,我们需要准备《三国演义》中的人物出场数据。为了简单起
原创 9月前
218阅读
在《红楼梦》这部中国古典文学名著中,人物众多,各具特色。为了更好地理解和分析这一作品,我决定使用Python统计其中各人物出场次数。通过这一过程,我们不仅可以深入理解人物之间的关系,还可以增强对文本分析和数据处理的实践能力。 ## 背景描述 在进行《红楼梦》中人物出场次数统计之前,首先需要明确整个流程。我们可以将这一复杂的任务分解为几个步骤: 1. **文本准备**:通过易读的文本格式获
原创 6月前
128阅读
在本文中,我们将探讨如何使用Python统计《红楼梦》中人物出场次数。这个过程不仅涉及到文本处理操作,还包括统计方法和数据分析的基本知识。接下来,我们将详细阐述我们的思路与过程。 ### 背景定位 在中文文学中,《红楼梦》被广泛认为是经典之作,书中的人物生动且众多。对这些人物出场次数进行统计,有助于更好地理解这部作品的结构与深义。本项目的技术定位在于数据分析和文本处理领域,主要使用Pyt
前面文章已经具体讲解了对统计《三国演义》人物名称出现次数的操作和实现思路,如有需要可以浏览。初级实现代码import jieba excludes = {"什么","一个","我们","那里","如今","你们","说道","起来", "姑娘","这里","出来","他们","众人","奶奶","自己","一面", "太太","只见","怎么","两
转载 2023-11-10 09:21:14
464阅读
本文首先使用jieba分词提取出红楼梦人物及出现次数,然后使用pyecharts进行可视化。文本分词并非重点关注,主要是做pyecharts的可视化练习。import pandas as pd import jieba import re from pyecharts.globals import CurrentConfig, OnlineHostType CurrentConfig.ONLINE
转载 2023-12-14 18:51:51
1538阅读
在这篇博文中,我们将探讨如何使用 Python 代码来统计《红楼梦》中人物出场次数。本文将从多个维度进行剖析,包括技术背景、性能指标、特性拆解、实战测试等,帮助我们全面理解这个问题的解决方案。 ### 背景定位 在进行《红楼梦》人物出场次数统计时,首先需要明确数据来源和需求。我们需要从文本中提取出人物名字,并统计每个名字的出现频率。这一任务在文本分析、自然语言处理等领域中具有广泛的应用。
在本文中,我们将深入探讨如何使用Python统计人物前20位出场次数。这个过程涉及数据分析和可视化技术,下面将详细阐述背景、技术原理、架构解析、源码分析、应用场景以及扩展讨论。 在分析某个影视剧、漫画或小说中的角色出场频次时,通常需要对数据进行统计和可视化。这不仅有助于理解作品的内容结构,还可以为后续的深度分析提供数据支持。以下是我们的工作流程。 ```mermaid flowchart TD
原创 6月前
39阅读
双字及以上搜索:快,但不够精确,比如“懿”,“瑜”,“郃(武将张郃)”的未被查找带来排序误差。上代码1:import jieba txt=open('threekingdoms.txt','r',encoding='utf-8').read() words=jieba.lcut(txt) counts={} #创建空字典 #excludes集合由多次迭代运行逐步完善至不影响前15名结果 exclu
前言为了顺利完成作业,经过几天的网上查阅完成了[根据第1部分自然语言处理教学内容,请选择一本你喜欢的小说,利用上课讲的但不限于授课内容,对该小说进行分析。比如分析该小说的分词,词频,词性,小说人物出场次数排序,小说中食物排序(这个得有,我喜欢吃),小说人物关系等等]的作业1.需要准备的文件bird.pngsgyy.txt是三国演义原文,自行搜索即可 同理tingyong.txt是停用词,自行搜索即
转载 2024-06-14 11:27:54
172阅读
 字符串中的join()方法t = ",".join(['aaa', 'bbb', 'ccc']) # join()将列表中的元素用指定的分隔符连接起来,连接成一个字符串 print(t)        将《三国演义》中出场频度高的人物名字,通过图片的形式做成词云(名字越大,人物出场频度越高)import j
bs4数据解析的原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化: 1.将本地的html文
目标统计三国演义中出现次数前100,并绘制云图准备分析工具:jieba,pandas,matplotlib,wordcloud 数据文档:三国演义.txt(原著),三国人物.txt(三国人名,大约1000多个),三国字.txt(一些常见人名及字,约800) 这些文档,放到了后面说明1、并不是严格的人物出场次数,有时可能只是提到,也算进去了 2、可能有jieba分词不准确的地方,并且由于是古典小说,
转载 2023-12-28 15:01:08
201阅读
“滚滚长江东逝水,浪花淘尽英雄”。近来读《三国演义》,忽然想看看到底哪位英雄在书中提到的最多,于是就想用分词算法实现一下。 网上也确实有相关的案例,作为参考,自己又重写并优化了一遍。思路下载《三国演义》txt文档使用jieba分词算法对文档进行分词处理将分词结果踢除停用词、标点符合、非人名等词频统计、并排序可视化展示问题按照上面的思路进行简单实施时,查看结果会发现几个问题名字 三国人物有名、
import jieba monsters = ['国丈', '虎力大仙', '赛太岁', '鹿力大仙', '玉面公主', '白衣秀士', '九头虫', '黄风怪', '羊力大仙', '九灵元圣', '辟尘大王', '凌虚子', '黑鱼精', '如意真仙', '六耳猕猴', '美后', '黄狮精', '辟寒大王', '特处士', '老鼋', '寅将军', '辟暑大王', '灵感大王', '熊
转载 2023-06-07 20:04:29
196阅读
  • 1
  • 2
  • 3
  • 4
  • 5