Python是面向未来数据科学家、IT专业人士和商业领袖的数据科学平台。它是Python、R等的发行版,拥有300多个数据科学包,是任何项目的最佳平台之一。在本python Anaconda教程中,我们将讨论如何使用Anaconda进行python编程。
Python简介
Anaconda是Python和R的开源发行版,用于数据科学、机器学习、深度学习等。随着超过300个DataScience库的可用,对于任何程序员来说,为数据科学开发Anaconda都是相当理想的。
Python有助于简化包管理和部署。Python配备了各种各样的工具,可以使用各种机器学习和人工智能算法轻松地从各种来源收集数据。它有助于获得易于管理的环境设置,只需单击一个按钮即可部署任何项目。
现在我们已经了解了python是什么,让我们试着了解如何安装Python并设置一个环境来在我们的系统上工作。
安装设置
要安装Python,请访问https://www.Anaconda.com/distribution/
选择适合您的版本,然后单击下载。完成下载后,打开安装程序。
按照设置中的说明进行操作。不要忘记单击add Anaconda Tomy path环境变量。安装完成后,您将看到如下图所示的窗口。
安装完成后,打开Anaconda Prompt并键入jupyternotebook。
您将看到一个窗口,如下图所示。
既然我们已经了解了如何将Anaconda用于Python,那么让我们来看看如何为任何项目在Python中安装各种库。
如何在Anaconda中安装Python库?
打开Anaconda提示符,检查库是否已安装。
由于不存在名为numpy的模块,我们将运行以下命令来安装numpy。
完成安装后,您将看到如图所示的窗口。
一旦安装了库,只需再次尝试导入模块即可确保安全。
如您所见,我们在开始时没有遇到任何错误,所以这就是我们如何在Python中安装各种库的方法。
Python导航器
Python导航器是Python发行版附带的桌面GUI。
它允许我们在不使用命令行命令的情况下启动应用程序并管理Conda包、环境和环境。
使用案例-Python基础知识
变量和数据类型
变量和数据类型是任何编程语言的构建块。Python有6种数据类型,具体取决于它们拥有的属性。列表、字典、集合、元组是Python编程语言中的集合数据类型。
下面是一个示例,说明如何在python中使用变量和数据类型。
#variable declaration
name = "traveler"
f = 1991
print("python was founded in" , f)
#data types
a = [1,2,3,4,5,6,7]
b = {1 : 'traveler' , 2: 'python'}
c = (1,2,3,4,5)
d = {1,2,3,4,5}
print("the list is" , a)
print("the dictionary is" , b)
print("the tuple is" , c)
print("the set is " , d)
运算符
Python中的运算符用于值或变量之间的运算。Python中有7种类型的运算符。
- 赋值运算符
- 算术运算符
- 逻辑运算符
- 比较运算符
- 按位运算符
- 会员制运营者
- 身份运算符
下面是一个示例,其中使用了python中的几个运算符。
a = 10
b = 15
#arithmetic operator
print(a + b)
print(a - b)
print(a * b)
#assignment operator
a += 10
print(a)
#comparison operator
#a != 10
#b == a
#logical operator
a > b and a > 10
#this will return true if both the statements are true.
控制语句
IF、ELSE、BREAK、CONTINUE等语句用作控制语句,以获得对执行的控制,以获得最佳结果。我们可以在python的各个循环中使用这些语句来控制结果。下面是一个示例,说明如何使用控制语句和条件语句。
name = 'traveler'
for i in name:
if i == 'a':
break
else:
print(i)
功能说明
Python函数以一种高效的方式提供解码可重用性,我们可以编写问题语句的逻辑并运行几个参数来获得最优解决方案。
下面是我们如何在Python中使用函数的示例。
def func(a):
return a a
res = func(10)
print(res)
类和对象
因为Python支持面向对象编程,所以我们也可以使用类和对象。下面是一个如何使用python中的类和对象的示例。
class Parent:
def func(self):
print('this is parent')
class Child(Parent):
def func1(self):
print('this is child')
ob = new Child()
ob.func()
这些是Python中的几个基本概念。现在谈到Python中更大的软件包支持,我们可以使用很多库。让我们看看如何使用python Anaconda进行数据分析。
使用案例-分析
这些是数据分析中涉及的某些步骤。让我们看看Python和我们可以使用的各种库中的数据分析是如何工作的。
采集数据
数据收集非常简单,只需在程序中加载CSV文件即可。然后,我们可以利用相关数据来分析数据中的特定实例或条目。以下是在程序中加载CSV数据的代码。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv('filename.csv')
print(df.head(5))
切片切丁
在我们将数据集加载到程序中后,我们必须对数据进行一些过滤处理,例如消除可能导致分析不明确的空值和不必要的字段。
下面是一个我们如何根据要求过滤数据的例子。
print(df.isnull().sum())
#this will give the sum of all the null values in the dataset.
df1 = df.dropna(axis=0 , how= 'any')
#this will drop rows with null values.
我们也可以删除空值。
sns.boxplot(x=df['Salary Range From'])
sns.boxplot(x=df['Salary Range To'])
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(16,8))
ax.scatter(df['Salary Range From'] , df['Salary Range To'])
ax.set_xlabel('Salary Range From')
ax.set_ylabel('Salary Range TO')
plt.show()
可视化
一旦我们按照要求更改了数据,就有必要对这些数据进行分析。这样做的一种方式就是将结果可视化。更好的视觉表现有助于对数据投影进行最佳分析。
以下是可视化数据的示例。
sns.countplot(x= "Full-Time/Part-Time indicator" , data= df)
sns.countplot(x="Full-Time/Part-Time indicator" , hue="Salary Frequency" , data= df)
sns.countplot(hue="Full-Time/Part-Time indicator", x="Posting Type" ,data= df)
df["Salary Range From"].plot.hist()
df["Salary Range To"].plot.hist()
import matplotlib.pyplot as plt
fig = plt.figure(figsize = (10,10))
ax = fig.gca()
sns.heatmap(df1.corr(), annot=True, fmt=".2f")
plt.title("Correlation",fontsize=5)
plt.show()
分析
在可视化之后,我们可以通过查看各种曲线图和图表来进行分析。假设我们正在处理作业数据,通过查看区域中特定作业的可视化表示,我们可以计算出特定域中的作业数量。
- 与全职岗位相比,数据集中兼职岗位的数量要少得多。
- 兼职岗位不足500个,全职岗位超过2, 500个
- 基于这一分析,我们可以构建预测模型
通过以上分析,我们可以假设以下结果在本Python教程中,我们已经了解了如何通过涵盖Python基础知识、数据分析和机器学习的用例来为Python设置Python。凭借300多个数据科学软件包,Python提供了最佳的支持和高效的结果。