1、从功能上看列表和元组的区别在于:列表可以被修改,而元组不可以。T 1、educe有点像map,但map用于递归计算,而map用于逐一便利。F 1、Scipy、Matplotlib、pandas等库都依赖于Numpy.T 1、聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。T 1、ROC曲线下的积分面积大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近于0说明该算法越好。F 1、ID3算法根据信息论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性,信息增益值越大,不确定性越小。T 1、当自变量之间出现多重共线性时,消除多重共线性的参数改进的估计方法有Logistic回归。F 1、零-均值规范化也叫标准差标准化,经过处理的数据均值为0,标准差为1.T 1、对于空间的n个点(无亮点在一条直线上)可以找到一个n次多项式y=a0+a1x+a2x2+...+anxn,使得此多项式过这n个点。F 1、Numpy的功能非常强大支持类似SQL的数据增、删、改,并有丰富的数据处理函数。F 1、Pearson相关系敌用于计算正态分布随机娈量的相关性。 1、主成分分析的设计目标是使得线性变换后的数据的协方差尽可能小,方差 尽可能大。 1、使用逻辑回归进行数据处理的时候,需要消除各个属性间的多重共线性。 1、L1正则化则会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性 1、df["id"].unique()表示取出“id”中的数据,并去除数组中的重复值。 1、聚类的划分的原则是组内样本最小化而组间(外部)距离最大化 数据分析1: import pandas as pd a = { 'id':["101001","101002","102001","102002"], 'num':[2,5,6,8] } df1 = pd.DataFrame(a) df1 b = { 'id':["101001","101002","102001","102002"], 'num':[32,34,56,8] } df2 = pd.DataFrame(b) df2 df = pd.concat([df1,df2],axis=1) df df['type'] = df['id'].iloc[:,0].str.extract('(\d{3})') df df3 = df.groupby('type').sum() df3 数据分析2: import pandas as pd index = [101,102,103,104,105,106,107] emp = pd.DataFrame.from_dict( {'A': pd.Series([1,0,1,1,1,0,1], index = index), 'B': pd.Series([1,1,1,1,1,0,0], index = index), 'C': pd.Series([0,0,1,0,0,0,0], index = index), 'D': pd.Series([0,1,1,1,0,1,0], index = index), 'E': pd.Series([1,0,1,0,1,0,0], index = index), } ) emp emp.corr() 数据分析3: from sklearn.linear_model import LogisticRegression as LR import pandas as pd data = pd.read_excel("bankloan.xls") x = data.iloc[:,:8].as_matrix() y = data.iloc[:,8].as_matrix() lr = LR() lr.fit(x,y) print(lr.score(x,y)) 数据分析4: import pandas as pd #(1) data={'id':[101001,101002,102001,102002],'url':["http://www.a.com/info/?456.html","http://www.b.com/info.html","http://www.c.com/info.html","http://www.d.com/info.html"]} df=pd.DataFrame(data) # (2) import re df1 = [re.search('101',str(i))!=None for i in df.loc[:,'id']] df1 = df.loc[df1,:] df1 # (3) df2 = [re.sub('\?.*','',str(i)) for i in df1.loc[:,'url']] (4) df1.loc[:,'url'] = df2 数据分析5: Apriori算法过程分为两个步骤: 第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集; 第二步利用频繁项集构造出满足用户最小信任度的规则。 具体做法就是: 首先找出频繁1-项集,记为L1;然后利用L1来产生候选项集C2,对C2中的项进行判定挖掘出L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。 每挖掘一层Lk就需要扫描整个数据库一遍。 1) 连接步 为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。 候选集合记作Ck。设l1和l2是Lk-1中的成员。记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li[1]<li[2]<……….<li[k-1]。将Lk-1与自身连接,如果(l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那认为l1和l2是可连接。连接l1和l2 产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。 2) 剪枝步 CK是LK的超集,也就是说,CK的成员可能是也可能不是频繁的。通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的。 为了压缩Ck,可以利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。 数据分析6: 基于水色图像特征提取的水质评价流程 主要步骤如下: 1)从采集到的原始水样图像中进行选择性抽取形成建模数据。 2)对步骤1形成的数据集进行数据预处理,包括图像切割和颜色矩特征提取。 3)利用步骤2形成的已完成数据预处理的建模数据,划分为训练集与测试集。 4)利用步骤3的训练集构建分类模型。 5)利用步骤4构建好的分类模型进行水质评价。