Series选择内部元素
若想获取Series对象内部的元素,把它作为普通的NumPy数组,指定键即可。
或者,指定位于索引位置处的标签:
跟从NumPy数组选择多个元素的方法相同,可像下面这样选取多项:
这种情况甚至可以使用元素对应的标签,只不过要把标签放到数组中去:
为元素赋值
既然你已经理解单个元素的选取方法,赋值方法也就不言自明。可以用索引或标签选取元素后进行赋值。
用NumPy数组或其他Series对象定义新Series对象
你可以用NumPy数组或现有的Series对象定义新的Series对象。
然而,这样做时不要忘记新Series对象中的元素不是原NumPy数组或Series对象元素的副本,而是对它们的引用。也就是说,这些对象是动态插入到新Series对象中。如改变原有对象元素的值,新Series对象中这些元素也会发生改变。
上述例子,改动arr数组第三个元素的值,同时也会修改Series对象s3中相应的元素。
筛选元素
pandas库的开发是以NumPy库为基础的,因此就数据结构而言,NumPy数组的多种操作方法得以扩展到Series对象中,其中就有根据条件筛选数据结构中的元素这一方法。
如要获取Series对象中所有大于8的元素,可以使用如下代码:
Series对象运算和数学函数
适用于NumPy数组的运算符(+、-、*、/)或其他数学函数,也适用于Series对象。
至于运算符,直接用来编写算术表达式即可。
然而,至于NumPy库的数学函数,必须指定它们的出处np,并把Series实例作为参数传入。
Series对象的组成元素
Series对象往往包含重复的元素,你很可能想知道里面都包含哪些元素,统计元素重复出现的次数或判断一个元素是否在Series中。
我们来声明一个包含多个重复元素的Series对象。
要弄清楚Series对象包含多少个不同的元素,可使用unique( )函数。其返回结果为一个数组,包含Series去重后的元素,但顺序看上去很随意。
跟unique( )函数相似的另外一个函数是value_counts( )函数,它不仅返回各个不同的元素,还计算每个元素在Series中的出现次数。
最后,isin( )函数用来判断所属关系,也就是判断给定的一列元素是否包含在数据结构之中。isin( )函数返回布尔值,可用于筛选Series或DataFrame列中的数据。
NaN
在前面的一个例子中,我们求负数的对数,得到的返回结果为NaN(Not a Number,非数值)。数据结构中若字段为空或者不符合数字的定义时,用这个特定的值来表示。
一般来讲,NaN值表示数据有问题,必须对其进行处理,尤其是在数据分析时。从某些数据源抽取数据时遇到了问题,甚至是数据源缺失数据,往往就会产生这类数据。进一步来讲,计算负数的对数,执行计算或函数时抛出异常等特定情况,也可能会产生这类数据,接下来我们会讲解NaN值的几种不同处理方法。