1、从功能上看列表和元组的区别在于:列表可以被修改,而元组不可以。T
1、educe有点像map,但map用于递归计算,而map用于逐一便利。F
1、Scipy、Matplotlib、pandas等库都依赖于Numpy.T
1、聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。T
1、ROC曲线下的积分面积大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近于0说明该算法越好。F
1、ID3算法根据信息论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益值度量不确定性,信息增益值越大,不确定性越小。T
1、当自变量之间出现多重共线性时,消除多重共线性的参数改进的估计方法有Logistic回归。F
1、零-均值规范化也叫标准差标准化,经过处理的数据均值为0,标准差为1.T
1、对于空间的n个点(无亮点在一条直线上)可以找到一个n次多项式y=a0+a1x+a2x2+...+anxn,使得此多项式过这n个点。F
1、Numpy的功能非常强大支持类似SQL的数据增、删、改,并有丰富的数据处理函数。F
1、Pearson相关系敌用于计算正态分布随机娈量的相关性。
1、主成分分析的设计目标是使得线性变换后的数据的协方差尽可能小,方差 尽可能大。
1、使用逻辑回归进行数据处理的时候,需要消除各个属性间的多重共线性。
1、L1正则化则会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性
1、df["id"].unique()表示取出“id”中的数据,并去除数组中的重复值。
1、聚类的划分的原则是组内样本最小化而组间(外部)距离最大化

数据分析1:
import pandas as pd
a = {
'id':["101001","101002","102001","102002"],
'num':[2,5,6,8]
}
df1 = pd.DataFrame(a)
df1
b = {
'id':["101001","101002","102001","102002"],
'num':[32,34,56,8]
}
df2 = pd.DataFrame(b)
df2

df = pd.concat([df1,df2],axis=1)
df

df['type'] = df['id'].iloc[:,0].str.extract('(\d{3})')
df

df3 = df.groupby('type').sum()
df3

数据分析2:
import pandas as pd
index = [101,102,103,104,105,106,107]
emp = pd.DataFrame.from_dict(
{'A': pd.Series([1,0,1,1,1,0,1], index = index),
'B': pd.Series([1,1,1,1,1,0,0], index = index),
'C': pd.Series([0,0,1,0,0,0,0], index = index),
'D': pd.Series([0,1,1,1,0,1,0], index = index),
'E': pd.Series([1,0,1,0,1,0,0], index = index),
}
)
emp
emp.corr()


数据分析3:
from sklearn.linear_model import LogisticRegression as LR
import pandas as pd
data = pd.read_excel("bankloan.xls")
x = data.iloc[:,:8].as_matrix()
y = data.iloc[:,8].as_matrix()
lr = LR()
lr.fit(x,y)
print(lr.score(x,y))


数据分析4:
import pandas as pd
#(1)
data={'id':[101001,101002,102001,102002],'url':["http://www.a.com/info/?456.html","http://www.b.com/info.html","http://www.c.com/info.html","http://www.d.com/info.html"]}
df=pd.DataFrame(data)

# (2)
import re
df1 = [re.search('101',str(i))!=None for i in df.loc[:,'id']]
df1 = df.loc[df1,:]
df1

# (3)
df2 = [re.sub('\?.*','',str(i)) for i in df1.loc[:,'url']]
(4)
df1.loc[:,'url'] = df2


数据分析5:
Apriori算法过程分为两个步骤:
第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;
第二步利用频繁项集构造出满足用户最小信任度的规则。
具体做法就是:
首先找出频繁1-项集,记为L1;然后利用L1来产生候选项集C2,对C2中的项进行判定挖掘出L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。
每挖掘一层Lk就需要扫描整个数据库一遍。
1) 连接步
为找出Lk(所有的频繁k项集的集合),通过将Lk-1(所有的频繁k-1项集的集合)与自身连接产生候选k项集的集合。
候选集合记作Ck。设l1和l2是Lk-1中的成员。记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序,即对于(k-1)项集li,li[1]<li[2]<……….<li[k-1]。将Lk-1与自身连接,如果(l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1]),那认为l1和l2是可连接。连接l1和l2 产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。
2) 剪枝步
CK是LK的超集,也就是说,CK的成员可能是也可能不是频繁的。通过扫描所有的事务(交易),确定CK中每个候选的计数,判断是否小于最小支持度计数,如果不是,则认为该候选是频繁的。
为了压缩Ck,可以利用Apriori性质:任一频繁项集的所有非空子集也必须是频繁的,反之,如果某个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。


数据分析6:
基于水色图像特征提取的水质评价流程
主要步骤如下:
1)从采集到的原始水样图像中进行选择性抽取形成建模数据。
2)对步骤1形成的数据集进行数据预处理,包括图像切割和颜色矩特征提取。
3)利用步骤2形成的已完成数据预处理的建模数据,划分为训练集与测试集。
4)利用步骤3的训练集构建分类模型。
5)利用步骤4构建好的分类模型进行水质评价。