全文共3513字,预计学习时长7分钟


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java

图片来源: MockupEditor.com/pexels.com


第20届KDnuggets年度软件调查吸引了超过1800人参与投票。每位参与者平均选择了6.1个不同的工具,因此那些仅投一票的参与者会对调查结果带来偏差。KDnuggets排除了大约180个这样的「独好」投票(其中有2/3来自于一个供应商),因为即使他们代表了该工具的合法用户,其经历也不能代表2019年数据科学家们的日常工作。


排除「独好」投票者后,以下是基于剩余参与者的初步分析。更多详细分析和匿名数据将在以后公布。


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_02

最受欢迎的分析、数据科学、机器学习软件


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_03

图 1:KDnuggests 分析/数据科学2019 年软件调查:2019 年最受欢迎工具,以及它们相对于2017-2018 年的排名变化。


有趣的是,2019年前11款最受欢迎的工具(每个工具的使用率至少为20%)与2018年完全重合。


Software

2019
 % share

2018
 % share

2017
 % share

Python

65.8%

65.6%

59.0%

RapidMiner

51.2%

52.7%

31.9%

R Language

46.6%

48.5%

56.6%

Excel

34.8%

39.1%

31.5%

Anaconda

33.9%

33.4%

24.3%

SQL Language

32.8%

39.6%

39.2%

Tensorflow

31.7%

29.9%

22.7%

Keras

26.6%

22.2%

10.7%

scikit-learn

25.5%

24.4%

21.9%

Tableau

22.1%

26.4%

21.8%

Apache Spark

21.0%

21.5%

25.5%

表1:KDnuggests 2019 年软件调查最受欢迎的分析/数据科学/机器学习软件 


在这里,「201N % share」一栏是指在201N年使用该工具的用户百分比。


每个投票者的平均使用工具数量是6.7个,与2018年的7.0个和2017年的6.75个的数据非常一致。

以下是根据连续三年最受欢迎工具的变化趋势得出的一些观察结果:

Python依然最受欢迎,与2018年python的使用率(2019年使用率65.8%vs 2018年使用率65.6%)几乎相同。

RapidMiner用户使用率保持在51%左右,这既反映了其庞大的用户群,也显示了其为激励用户参与调查发起的成功的推广。值得注意的是,RapidMiner并不是KdNuggets目前的广告商。


R语言市场份额已连续两年呈下降趋势,但今年下降幅度比去年要小。有些用户提出RStudio也应该被纳入调查范围,因此KdNuggets将在下一年的调查中加入RStudio。


深度学习平台Tensorflow,尤其是Keras的使用率每年都在增加,这反映了深度学习在各领域得到更多应用。


SQL使用率保持稳定,连续多年保持着30%以上的使用率。因此,如果你是一位有雄心壮志的数据科学家,在学习TensorFlow的同时也学习SQL吧,它在很长一段时间里都会有用。


趋势


2019年有一些新的数据科学软件也加入了调查,其中8个软件获得了至少25票。


· XGBoost, 12.7%

· Javascript, 6.8%

· Apache Kafka, 6.0%

· Google Bigquery, 5.2%

· LightGBM, 3.1%

· fastai library, 2.4%

· Apache Storm 1.9%

· CatBoost, 1.8%


下表中列举了参与2018年KDnuggets调查的,2019年使用率增长达20%以上,且获得至少25票的工具。

Software

2019
 % share

2018
 % share

% change

BigML

2.6%

0.9%

199%

Julia

1.7%

0.7%

150%

Databricks Unified Analytics Platform

2.6%

1.2%

115%

PyTorch

11.3%

6.4%

76%

Microsoft other ML/Data Science tools

1.8%

1.3%

35%

表2:使用率增幅较大的主要分析/数据科学/机器学习工具


持续整合?


2018 年使用率达到2%及以上的48个工具中,有14个(小于 1/3)工具在2019年使用率有所上升,其余34个均下降。在2018年间也出现了这种趋势,表明数据科学平台与机器学习平台的整合正在进行过程中。


2018 年使用率至少 2% 的工具,今年下降了 25% 甚至更多,详见下表。

Platform

2019
 % share

2018
 % share

% change

Dataiku

2.0%

6.3%

-68.2%

TIBCO Spotfire

1.2%

3.1%

-62.2%

IBM DSX/Watson Studio

1.9%

4.5%

-58.3%

IBM SPSS Modeler

2.4%

4.9%

-51.2%

Microsoft Machine Learning Server

1.2%

2.1%

-41.8%

Weka

6.7%

11.4%

-41.4%

MATLAB

6.1%

9.3%

-34.5%

IBM SPSS Statistics

5.3%

8.0%

-33.6%

表 3:使用率跌幅最大的主要分析/数据科学工具


一些工具使用率下跌的原因可能是供应商推广活动做的不到位,导致参与KDnuggets调查的人数不多。有些下跌则是由于平台的普及率下降,国际商业机器公司也可能是如此。


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_04

深度学习工具


该调查中使用深度学习工具的投票者所占份额从2018年的33%和2017年的32%一跃而至49.8%。

 

TensorFlow 仍然是深度学习领域中的主导平台,Keras作为构建在TensorFlow框架上极受欢迎的包装器也在迅速发展。PyTorch占据份额也得到了极大的增长。其他大部分的深度学习工具(除了MXnet)使用率都有不同程度的下降。



Platform

2019
 % share

2018
 % share

% change

Tensorflow

31.7%

29.9%

5.8%

Keras

26.6%

22.2%

19.7%

PyTorch

11.3%

6.4%

75.5%

Other Deep Learning Tools

5.6%

4.9%

15.2%

DeepLearning4J

2.5%

3.4%

-25.6%

Apache MXnet

1.7%

1.5%

13.1%

Microsoft Cognitive Toolkit

1.6%

3.0%

-45.5%

Theano

1.6%

4.9%

-67.4%

Torch

0.9%

1.0%

-6.1%

TFLearn

0.7%

1.1%

-34.7%

Caffe

0.6%

1.5%

-58.3%

表4:主要深度学习工具排名


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_05

大数据工具


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_06

图片来源: Pixabay/pexels.com


2019年,约37%的用户使用大数据工具,2018年约为33%。ApacheSpark使用率持续领先于Hodoop,流式大数据平台如ApacheStorm、Flink和wso2流处理器开始兴起。下表显示了相关细节,na代表着软件在2018年没有被纳入调查中。


Platform

2019
 % share

2018
 % share

% change

Apache Spark

21.0%

21.5%

-2.3%

Hadoop: Open Source Tools

12.1%

11.0%

10.2%

SQL on Hadoop tools

8.4%

10.2%

-17.3%

Apache Kafka

6.0%

na

na

Google Bigquery

5.2%

na

na

Hadoop: Commercial Tools

4.5%

5.7%

-20.1%

Apache Storm

1.9%

na

na

Flink

0.8%

na

na

WSO2 Stream Processor

0.5%

na

na


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_07

编程语言


Python和R持续占据主导地位。今年新加入调查的是Javascript,占据相当可观的6.8%的份额。Julia的份额也有所上升,但其他大多编程语言的份额都减少了。


以下是按热门度排序的主要编程语言:


Platform

2019
 % share

2018
 % share

% change

Python

65.8%

65.6%

0.2%

R Language

46.6%

48.5%

-4.0%

SQL Language

32.8%

39.6%

-17.2%

Java

12.4%

15.1%

-17.7%

Unix shell/awk

7.9%

9.2%

-13.4%

C/C++

7.1%

6.8%

3.7%

Javascript

6.8%

na

na

Other programming and data languages

5.7%

6.9%

-17.1%

Scala

3.5%

5.9%

-41.0%

Julia

1.7%

0.7%

150.4%

Perl

1.3%

1.0%

25.2%

Lisp

0.4%

0.3%

46.1%


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_08

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货


编译组:段昌蓉、杨敏迎

相关链接:

https://www.kdnuggets.com/2019/05/poll-top-data-science-machine-learning-platforms.html


如需转载,请后台留言,遵守转载规范


推荐文章阅读


ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾


长按识别二维码可添加关注

读芯君爱你


2019软件调查:Python独占鳌头,R与RapidMiner紧随其后_java_09