Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略
目录
Rotten Tomatoes影评数据集简介
烂番茄(Rotten Tomatoes)网站影评短语数据,对电影进行评价。每个影评可以归入下面5个类项:
- 不给力(negative),
- 不太给力(somewhat negative),
- 中等(neutral),
- 有点给力(somewhat positive),
- 给力(positive)。
解释变量不会总是直白的语言,因为影评内容千差万别,有讽刺的,否定的,以及其他语义的表述,语义并不直白,这些都会让分类充满挑战。
Sentiment是响应变量,0是不给力(negative),4是给力(positive),其他以此类推。Phrase列是影评的内容。影评中每句话都被分割成一行。我们不需要考虑PhraseId列和SentenceId列。
通过下边的代码,可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%, 4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。
Rotten Tomatoes影评数据集下载
Rotten Tomatoes影评数据集使用方法
import zipfile
# 压缩节省空间
z = zipfile.ZipFile('mlslpic/train.zip')
df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')
df.head()
df.count()
-------------------------
PhraseId 156060
SentenceId 156060
Phrase 156060
Sentiment 156060
dtype: int64
df.Phrase.head(10)
df.Sentiment.describe()
-----------------------
count 156060.000000
mean 2.063578
std 0.893832
min 0.000000
25% 2.000000
50% 2.000000
75% 3.000000
max 4.000000
Name: Sentiment, dtype: float64
df.Sentiment.value_counts()
-----------------------
2 79582
3 32927
1 27273
4 9206
0 7072
dtype: int64
df.Sentiment.value_counts()/df.Sentiment.count()
2 0.509945
3 0.210989
1 0.174760
4 0.058990
0 0.045316
dtype: float64
可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,
因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%,
4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。