snownlp文本分析 from problems to solutions文本分析_sed

在大数据的今天,通过互联网超文本链接,无数的个人、团体、公司、政府等不同组织形态的主体均深深嵌入到互联网世界,在网络世界中留下了大量的文本。社会、管理、经济、营销、金融等不同学科,均可以研究网络上海量的文本,扩宽的研究对象和研究领域。下面大部分内容是三份文档翻译汇总而来,我觉得讲的挺明白的,其中加入了我的一点点理解和扩充。

一、文本产生及其作用方式

  • How text reflects its producer?
  • How text impacts its receiver?

snownlp文本分析 from problems to solutions文本分析_文本分析_02

文本信息的 生产者producer消费者receiver ,涵盖 个人、公司(组织)、国家(社会) 三个层面。

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_03

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_04

需要注意的是文本的 反映reflects影响impacts 并不是非此即彼,往往会同时起作用。

snownlp文本分析 from problems to solutions文本分析_文本分析_05

二、如何使用文本数据

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_06

三、文本信息的指标

粗略的分,文本信息可以分为定性与定量两种类型

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_07

早先的营销领域,如在线评论文本分析指标多为

  • 数量,如文本长度(e.g., Godes and Mayzlin 2004; Moe and Trusov2011)
  • 情感得分(效价,评论评分) (e.g., Godes and Silva 2012; Moe and Schweidel 2012; Ying, Feinberg and Wedel 2006)·
  • 方差,如信息墒(e.g., Godes and Mayzlin 2004).

然而如今这些指标经常忽略了文本的丰富度。以下几种是更好用的指标

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_08

四、文本分析步骤

snownlp文本分析 from problems to solutions文本分析_Python_09

snownlp文本分析 from problems to solutions文本分析_文本分析_10

五、文本分析技术对比

snownlp文本分析 from problems to solutions文本分析_Python_11

从左向右,自动化程度越来越高,人工介入的越来越少

snownlp文本分析 from problems to solutions文本分析_snownlp文本分析_12

snownlp文本分析 from problems to solutions文本分析_Python_13

据被压缩成词组频数,定性的文本数据转化为定量的频数。本课程中会涉及到的内容(x到的部分)

  • [ ] Thematic Analysis 定性
  • [x] Content Analysis
  • [x] Dictionary
  • [x] Bag of words 词袋法
  • [x] Supervised ,监督学习 文本分类问题
  • [x] Unsupervised,如非监督LDA话题模型
  • [ ] Natural language processing

相关文献

[1]Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.

[2]Kenneth Benoit. July 16, 2019. “[Text as Data: An Overview](https://kenbenoit.net/pdfs/28 Benoit Text as Data draft 2.pdf).” Forthcoming in Cuirini, Luigi and Robert Franzese, eds. Handbook of Research Methods in Political Science and International Relations. Thousand Oaks: Sage.

[3]Banks, George C., Haley M. Woznyj, Ryan S. Wesslen, and Roxanne L. Ross. "A review of best practice recommendations for text analysis in R (and a user-friendly app)." Journal of Business and Psychology 33, no. 4 (2018): 445-459.