这周老师布置了一项作业,让我们回去将自己喜欢的小说里面的主角出场次数统计出来,我对这个充满了兴趣,但我遇到了三个问题:(1)一开始选了一部超长的小说(最爱之一),但是运行时老是不行,老是显示下图错误:(2)我一开始是像书本那样直接把txt文件名打上去,类似于open(‘two.txt’,'r').read(),但总是出现一下一行字:(3)三个字的人名总是会有几个人只打了
前言为了顺利完成作业,经过几天的网上查阅完成了[根据第1部分自然语言处理教学内容,请选择一本你喜欢的小说,利用上课讲的但不限于授课内容,对该小说进行分析。比如分析该小说的分词,词频,词性,小说人物出场次数排序,小说中食物排序(这个得有,我喜欢吃),小说人物关系等等]的作业1.需要准备的文件bird.pngsgyy.txt是三国演义原文,自行搜索即可 同理tingyong.txt是停用词,自行搜索即
转载 2024-06-14 11:27:54
172阅读
 字符串中的join()方法t = ",".join(['aaa', 'bbb', 'ccc']) # join()将列表中的元素用指定的分隔符连接起来,连接成一个字符串 print(t)        将《三国演义》中出场频度高的人物名字,通过图片的形式做成词云(名字越大,人物出场频度越高)import j
## Python红楼梦人物出场统计 ### 引言 《红楼梦》是中国古代四大名著之一,也是中国古代小说的巅峰之作。其中涉及了众多的人物角色,每个角色都有着自己的故事和命运。为了更好地了解《红楼梦》中各个人物的出场情况,我们可以借助Python进行人物出场统计分析。 ### 准备工作 在开始之前,我们需要先准备一份《红楼梦》的文本数据,可以从互联网上下载《红楼梦》的电子版文档,例如txt格式。将
原创 2023-08-26 08:08:44
1071阅读
前言看到用机器学习方法分析红楼梦的文章不少,也有好几种方法,大观是因为纯文字的分析成本低吧,比较适合初学者练手,先转一两篇文章过来学习。所谓机器学习也是一些数学统计的方法,通过习惯用词来做判断, 也并不是很难。这里判定的维度越多越精准,下面判定仅供参考,仅供娱乐学习! 判定整体思路主要从以下几个方面可以进行粗略进行判定:1.写作习惯每个人写作都有一些与种不同的小习惯,这些小习惯并不会轻易就会发生改
先看效果,我们的冠词"热"以929次高居榜首核心知识简单的文件读取 字典 列表 尤其是字典和列表,需要了解清楚才能理解代码步骤读取txt文件,并将所有的标点符号替换为空格将文件分解成一个一个的单词使用字典一个一个的复制单词作为键,遇到相同的键其对应的值就+1将字典转化为列表,并按值大小从大到小排序循环输出结果代码def getTxt(): # 打开相对路径,需要两个省略号点.表示本项目
一、程序分析1.读文件到缓冲区 1 def process_file(dst): # 读文件到缓冲区 2 try: # 打开文件 3 file1 = open(dst, "r") 4 except IOError as s: 5 print(s) 6 return None 7 try:
这是全栈数据工程师养成攻略系列教程的第五期:5 实战 西游记用字统计。我们将通过一个简单的实战项目,来巩固之前学习的Python基础。数据所使用的数据可以在我的Github上找到,github.com/Honlan/full…。将整个项目下载下来之后,里面的data文件夹中便包含了课程所需的全部数据和文件。这次我们将用到xyj.txt,里面是小说巨著《西游记》的文本内容,使用UTF8编码,文件大小
1、字符串介绍字符串是字符的序列表示,根据字符串的内容多少分为单行字符串和多行字符串。单行字符串可以由一对单引号(‘)或双引号(“)作为边界来表示,单引号和双引号作用相同,使用单引号时,双引号可以作为字符串的一部分;使用双引号时,单引号可以作为字符串的一部分。多行字符串可以由一对三单引号(‘’’)或一对三双引号(“””)作为边界来表示,两者作用相同。实例如下所示:>>> prin
# Python与《三国演义》人物出场统计 《三国演义》是中国古典文学的瑰宝,其中的人物众多,故事情节错综复杂。对于热爱这部作品的读者来说,了解各个人物的出场频率,无疑能加深对故事的理解。本文将通过 Python 语言对《三国演义》中人物的出场进行统计,并通过可视化手段展现结果,以便于更直观地理解这一伟大作品。 ## 1. 数据准备 首先,我们需要准备《三国演义》中的人物出场数据。为了简单起
原创 9月前
218阅读
在《红楼梦》这部中国古典文学名著中,人物众多,各具特色。为了更好地理解和分析这一作品,我决定使用Python统计其中各人物的出场次数。通过这一过程,我们不仅可以深入理解人物之间的关系,还可以增强对文本分析和数据处理的实践能力。 ## 背景描述 在进行《红楼梦》中人物出场次数统计之前,首先需要明确整个流程。我们可以将这一复杂的任务分解为几个步骤: 1. **文本准备**:通过易读的文本格式获
原创 6月前
131阅读
   《红楼梦》作为我国四大名著之一,古典小说的巅峰之作,粉丝量极其庞大,而红学也经久不衰。所以我们今天通过 Python 来探索下红楼梦里那千丝万缕的人物关系,话不多说,开始整活!一、准备工作红楼梦txt格式电子书一份金陵十二钗+贾宝玉人物名称列表宝玉 nr 黛玉 nr 宝钗 nr 湘云 nr 凤姐 nr 李纨 nr 元春 nr 迎春 nr 探春 nr 惜春 nr 妙玉 nr
在本文中,我们将探讨如何使用Python统计《红楼梦》中人物的出场次数。这个过程不仅涉及到文本处理操作,还包括统计方法和数据分析的基本知识。接下来,我们将详细阐述我们的思路与过程。 ### 背景定位 在中文文学中,《红楼梦》被广泛认为是经典之作,书中的人物生动且众多。对这些人物的出场次数进行统计,有助于更好地理解这部作品的结构与深义。本项目的技术定位在于数据分析和文本处理领域,主要使用Pyt
在这篇博文中,我们将探讨如何使用 Python 代码来统计《红楼梦》中人物的出场次数。本文将从多个维度进行剖析,包括技术背景、性能指标、特性拆解、实战测试等,帮助我们全面理解这个问题的解决方案。 ### 背景定位 在进行《红楼梦》人物出场次数统计时,首先需要明确数据来源和需求。我们需要从文本中提取出人物名字,并统计每个名字的出现频率。这一任务在文本分析、自然语言处理等领域中具有广泛的应用。
在本文中,我们将深入探讨如何使用Python统计人物前20位出场次数。这个过程涉及数据分析和可视化技术,下面将详细阐述背景、技术原理、架构解析、源码分析、应用场景以及扩展讨论。 在分析某个影视剧、漫画或小说中的角色出场频次时,通常需要对数据进行统计和可视化。这不仅有助于理解作品的内容结构,还可以为后续的深度分析提供数据支持。以下是我们的工作流程。 ```mermaid flowchart TD
原创 6月前
39阅读
在2008年北京奥运会开幕式上,世界各国的代表团依照首次在历史上得以确定的国家出场顺序。一方面是根据各国的字母顺序,另一方面也是为了增强整个典礼的观赏性。要使用Python程序模拟真实的国家出场顺序,我们可以借助排序算法将国家名单进行合理的排列。以下是实现这一功能的过程。 ## 版本对比 ### 特性差异 在用Python编写程序的过程中,我们可能会遇到不同版本之间的特性差异。例如,Pyth
bs4数据解析的原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup对象的实例化: 1.将本地的html文
前面文章已经具体讲解了对统计《三国演义》人物名称出现次数的操作和实现思路,如有需要可以浏览。初级实现代码import jieba excludes = {"什么","一个","我们","那里","如今","你们","说道","起来", "姑娘","这里","出来","他们","众人","奶奶","自己","一面", "太太","只见","怎么","两
转载 2023-11-10 09:21:14
464阅读
# Python社团:探索编程的无穷魅力 欢迎来到我们的Python社团!今天,我们将一起探讨Python这门编程语言的基本概念以及一些实用的代码示例。无论你是编程新手还是有一定基础的开发者,Python都能带给你全新的体验。在这篇文章中,我们将了解Python的基本语法、数据结构,以及如何利用Python进行简单的项目开发。同时,我们还将通过流程图和序列图来帮助大家理清思路。 ## Pyth
原创 9月前
24阅读
replace()name = 'hello world haha' new_name = name.replace('ha','Ha') print(new_name) name = 'hello world haha' new_name = name.replace('ha','Ha',1) print(new_name)输出:hello world HaHa hello world Hah
  • 1
  • 2
  • 3
  • 4
  • 5