• 数据分析方法论的几个作用:
  • 可以帮助我们理清楚分析的思路,确保分析过程的体系化
  • 可以看出问题之间的关系
  • 为数据分析的开展指引方向和确保分析结果的有效准确合理性

常用的数据分析方法论

  • 常见的营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等等
  • 常见的管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则,其中比较经典实用的主要有:PEST分析法、5W2H、逻辑树、4P、用户使用行为

3.1PEST分析法


  • PEST分析法用于对宏观环境进行分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。对宏观环境因素做分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治( Political)、经济( Economic )、技术(Technological )和社会 (Social )这四大类影响企业的主要外部环境因素进行分析,这种方法简称为PEST分析法。



* **政治环境**:包括国家社会制度、政府方针、政策、法令,**构成政治环境的关键指标有:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等等。**

* **经济环境:**经济环境主要包括**宏观和微观**两个方面的内容,**宏观主要是指**国家的国民收入、国内生产总值及其变化情况,以及通过这些指标反映的国民经济发展水平和发展速度。**微观经济环境**主要指企业所在地区和所服务地区的消费者的收入水平等,**构成经济环境的关键指标主要有:GDP增长率、进出口额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等等**

* **社会环境:**社会环境包括一个国家或地区的居民受教育程度和文化水平、宗教信仰、风俗习惯、价值观念、审美观点等。**构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。**

* **技术环境:**技术环境除了要考察与企业所处领域直接相关的技术手段的发展变化外,**还应及时了解**:国家对科技开发的投资和支持重点、该领域技术发展动态和研究开发费用总额、技术转移和技术商品化速度、专利及其保护情况等。**构成技术环境的关键指标主要有:新技术的发明、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等。**

3.2 5W2H分析法


  • 5w2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索,**即何因( why )、何事( what )、何人 ( who )、何时( When )、何地( where ) 、如何做(How )、何价( How much ),**这就构成了5W2H分析法的总框架


![]()

  • 5w2H分析法操作简单方便、易于理解,通常应用于企业营销、管理活动,对于决策和执行活动有很大的帮助,可以弥补考虑问题中的疏漏,帮助建立数据分析的框架
  • 比如对用户购买行为的分析


3.3 逻辑树分析法

  • 逻辑树分析法,又称为麦肯锡逻辑树,其最大的优势在于,将繁杂的数据工作细分为多个关系密切的部分,不断地分解问题,帮助人们在纷繁复杂的现象中找出关键点,推动问题的解决。逻辑树是分析问题常使用的一种工具,他将各种问题进行罗列。从最高层开始,逐步向下发展,把一个已知的问题看作树干,考虑这个问题与其他问题的相关性,有助于在分析过程中快速理清思路,避免进行重复和无关的思考,逻辑树的使用需要遵循以下原则

* **要素化**:把相同问题总结归纳成要素

* **框架化**:将各个要素组织成框架,遵守不重不漏的原则

* **关联化**:框架内的各要素要保持必要的相互关系

* ![]()

3.4 4P营销理论

  • 4P营销理论产生于20世纪60年代的美国,它是随着营销组合理论的提出而出现的。营销组合实际上有几十个要素,这些要素可以概括为4类,产品( Product )、价格( Price )、渠道( Place )、促销( Promotion ),即著名的4P营销理论。


3.5 用户使用行为理论

  • 用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后使用,再决定是否继续消费使用,最后成为核心用户,


3.6 数据分析方法论小结


  • PEST分析理论主要用于行业分析
  • 4P分析理论主要用于公司整体经营情况分析
  • 逻辑树分析理论可用于业务问题专题分析
  • 用户使用行为理论的用途较单一,就是用于用户行为研究分析
  • 5w2H分析理论的用途相对广泛,可用于用户行为分析、业务问题专题分析等

虽然上述的方法论一般用于解决的分析问题不同,但是可以进行嵌套使用,比如用逻辑树来搭建分析框架,从4P的角度进行分析等等,最关键的是一定要具体问题具体分析!

四、常用的数据分析工具

===========

  • 工欲善其事,必先利其器。熟练掌握一个数据分析工具可以事半功倍的解决问题。数据分析工具有多种,它们的使用都离不开数据获取、数据处理、数据分析、数据展现这几方面常用的数据分析工具如Excel、sPSS、R、Python等
  • Excel是日常工作中最常用的一款工具之一,它是Microsoft公司的-款电子表格软件,拥有直观的界面、出色的计算功能和图表工具,是目前最流行的数据处理、分析工具。它可以进行各种数据处理、数据分析和数据可视化,甚至也可以用于报告撰写,广泛地应用于运营、管理、分析、财务、金融等众多领域,它的特点就是简单、易用,缺点则是数据存储有限、计算速度慢,扩展功能少。
  • SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(Solutions Statistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、数据分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。其优点主要有:操作简便、功能强大、数据兼容。
  • R语言 R是一种免费、自由的编程语言,所以也称为R语言(其Logo 如图1-19所示),它由统计学家发明和发展,R解决的问题只有一个,就是如何挖掘数据价值的问题。R是一款强大的数据统计分析、数据可视化工具。其特点有免费开源、绘图功能强大、程序包丰富,但是对新手友好度不高,入门门槛比较高。同时同Python相比R计算速度较慢

python浙江省生育率论文_数据

  • Python是一种免费、自由的编程语言,所以也称为Python语言,可以称得上既简单又功能强大的编程语言,它可用于软件、游戏、Web开发以及运维,当然也可以应用于数据分析、数据挖掘、数据可视化等,是一款强大的数据分析、数据挖掘工具。随着人工智能技术的流行,Python语言越来越普及。

出于对方法的优缺点和普及性的选择,本文选取基础的EXCEL和Python作为主要分析工具

五、理解数据

======

  • 常用的数据类型可以归结为两大类:字符型数据型逻辑性,
  • 字符型数据是不具有算术运算能力的文本数据类型**。它包括中文字符、英文字符、数字字符(非数值型)等字符。**字符型数据属于分类数据,即可以按字符型数据进行分类统计,如按性别分类统计,按部门分类统计,按姓名分类统计。
  • 数值型数据表示数量,是可进行算术运算的数据类型**。是否可用算术方法进行运算,是区分数据类型的重要特征。**数值型数据属于一种特殊分类数据,即可以按数值型数据进行分类统计,如按每个年龄值进行分类统计,按每个收入值进行分类统计,不过类别值越多,其分类就越细,通常也就越难发现潜在规律。所以对数据值型数据进行分类统计,一般先将数值型数据进行分区间处理,再按区间段进行分类统计。
  • 逻辑型数据只有TRUE 和 FALSE两种,分别代表是和否
  • 在Excel中**,一般情况下,字符型数据在单元格中默认靠左对齐,数值型数据在单元格中默认靠右对齐,逻辑型数据默认居中显示。**
  • **常见的数据处理方法包括:**数据清洗、数据合并、数据抽取、数据计算、数据转换几大类方法

python浙江省生育率论文_python浙江省生育率论文_02

  • 数据清洗:主要是将多余的数据进行筛选清除,将缺失的数据补充完整,常用的数据清洗方法主要有重复数据处理、缺失数据处理、空格数据处理。

5.1****重复数据处理:


编号

B667708

B310882

B520304

B776477

B356517

B466074

B466074

B776477

B776477

B667708

  • 如我们有目前的这一个编号,我们怎么进行去重?
  • Excel函数法去重
  • COUNTIF函数–COUNTIF 是一个统计函数,用于统计满足某个条件的单元格的数量;
  • countif(区域,条件),在B2输入=COUNTIF(A:A,A2)表示在A行中共有多少个A2元素,在c2中输入C2 =COUNTIF(A$2:A2,A2),代表从第一个元素开始该单元格共出现了几次

编号

重复标记

前n个数据中有n个当前数据

B667708

2

1

B310882

1

1

B520304

1

1

B776477

3

1

B356517

1

1

B466074

2

1

B466074

2

2

B776477

3

2

B776477

3

3

B667708

2

2

肯定有小伙伴会问了,此时怎么得到不重复的数据那,这么做有什么意义那,此时我们只需要将C列进行筛选,筛选为1的值,即为不重复数据。

Excel高级筛选法查重

在Excel数据高级筛选中选择不重复的记录

python浙江省生育率论文_python浙江省生育率论文_03


Excel条件格式法查重

在开始选项卡中点击条件格式选择突出显示单元格原则,选择重复值

python浙江省生育率论文_学习_04


python浙江省生育率论文_python浙江省生育率论文_05


数据透视表法查重

用数据透视表统计各数据出现的频次,出现两次以上认为该数据属于重复数据

python浙江省生育率论文_学习_06


python浙江省生育率论文_学习_07


  • 找出重复数据

使用python–pandas包下的duplicated函数

DataFrame.duplicated(subset=None, keep=‘first’)

  • **subset:**取得一列或列标签列表。默认值为无。传递列后,它将仅将它们视为重复项。

**keep:**控制如何考虑重复值。它只有三个不同的值,默认值为“第一”。

**->**如果为“第一个”,则它将第一个值视为唯一值,并将其余相同的值视为重复值。

**->**如果为“ last”,则它将last值视为唯一值,并将其余相同的值视为重复值。

**->**如果为False,则将所有相同的值视为重复项。

data.duplicated() #返回布尔型数据,告诉重复值的位置

df.duplicated.sum() #说明重复值的总数

data[data.duplicated()] #打印重复值

重复数据删除

  • 1、使用EXCEL菜单栏里的删除重复值将重复的数据删除掉

python浙江省生育率论文_数据分析_08


  • 2、使用python–pandas包下的duplicated函数删除重复值将重复的数据删除掉

#inplace=True表示直接在源数据上进行操作

data.drop_duplicates(inplace=True)

5.2 缺失数据处理


在数据处理过程中,缺失值的存在是不可避免的,缺失值过多反映在数据收集过程中出现问题,将直接影响到最终数据分析的准确性,缺失数据在总数据的10%以下方是可以接受的标准

对缺失值的处理一般采用批量填充

python浙江省生育率论文_学习_09

对于上述表格想要快速填充空值应该怎么做那?CTRL+G定位条件中选择空值,选上后输入公式(本例中单点一下“张三”即可),在CTRL+ENTER进行批量填充

python浙江省生育率论文_数据分析_10

python浙江省生育率论文_数据_11

可以看到所有的空值全部被选择上了

python浙江省生育率论文_学习_12

批量填充完毕

空格处理

可以采用TRIM函数 TRIM(TEXT)可以删除文本前后的空格,而保留文本中间的空格

在Python中删除字符串中所有空格有:使用replace()函数、使用split()函数+join()函数、使用Python正则表达式,正则表达式可以查看(Python-正则表达式总结+常用示例)

数据合并

  • 通常数据表中现有的数据字段难以满足我们所有的数据分析需求,我们可以对现有的字段进行数据合并、数据抽取、数据计算或者数据转换等处理,形成数据分析所需要的新字段。数据合并是指综合数据表中某几个字段的信息或不同记录数据,将它们组合成一个新字段、新记录数据,常用的操作有字段合并、字段匹配。
  • 1、CONCAT(text1, [text2],…),
  • 如果结果字符串超过 32767 个字符(单元格限制),则 CONCAT 返回 #VALUE! 错误。
  • |

参数

|

说明

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

或不同记录数据,将它们组合成一个新字段、新记录数据,常用的操作有字段合并、字段匹配。

  • 1、CONCAT(text1, [text2],…),
  • 如果结果字符串超过 32767 个字符(单元格限制),则 CONCAT 返回 #VALUE! 错误。


|