kk

转载

mb5fed73533dfa9 2021-07-01 23:42:00

1、从功能上看列表和元组的区别在于：列表可以被修改，而元组不可以。T
1、educe有点像map，但map用于递归计算，而map用于逐一便利。F
1、Scipy、Matplotlib、pandas等库都依赖于Numpy.T
1、聚类模型可以建立在无类标记的数据上，是一种非监督的学习算法。T
1、ROC曲线下的积分面积大小与每种方法优劣密切相关，反映分类器正确分类的统计概率，其值越接近于0说明该算法越好。F
1、ID3算法根据信息论，采用划分后样本集的不确定性作为衡量划分好坏的标准，用信息增益值度量不确定性，信息增益值越大，不确定性越小。T
1、当自变量之间出现多重共线性时，消除多重共线性的参数改进的估计方法有Logistic回归。F
1、零-均值规范化也叫标准差标准化，经过处理的数据均值为0，标准差为1.T
1、对于空间的n个点（无亮点在一条直线上）可以找到一个n次多项式y=a0+a1x+a2x2+...+anxn，使得此多项式过这n个点。F
1、Numpy的功能非常强大支持类似SQL的数据增、删、改，并有丰富的数据处理函数。F
1、Pearson相关系敌用于计算正态分布随机娈量的相关性。
1、主成分分析的设计目标是使得线性变换后的数据的协方差尽可能小，方差 尽可能大。
1、使用逻辑回归进行数据处理的时候，需要消除各个属性间的多重共线性。
1、L1正则化则会使原最优解的元素产生不同量的偏移，并使某些元素为0，从而产生稀疏性
1、df["id"].unique()表示取出“id”中的数据，并去除数组中的重复值。
1、聚类的划分的原则是组内样本最小化而组间（外部）距离最大化

数据分析1：
import pandas as pd
a = {
'id':["101001","101002","102001","102002"],
'num':[2,5,6,8]
}
df1 = pd.DataFrame(a)
df1
b = {
'id':["101001","101002","102001","102002"],
'num':[32,34,56,8]
}
df2 = pd.DataFrame(b)
df2

df = pd.concat([df1,df2],axis=1)
df

df['type'] = df['id'].iloc[:,0].str.extract('(\d{3})')
df

df3 = df.groupby('type').sum()
df3

数据分析2：
import pandas as pd
index = [101,102,103,104,105,106,107]
emp = pd.DataFrame.from_dict(
{'A': pd.Series([1,0,1,1,1,0,1], index = index),
'B': pd.Series([1,1,1,1,1,0,0], index = index),
'C': pd.Series([0,0,1,0,0,0,0], index = index),
'D': pd.Series([0,1,1,1,0,1,0], index = index),
'E': pd.Series([1,0,1,0,1,0,0], index = index),
}
)
emp
emp.corr()


数据分析3：
from sklearn.linear_model import LogisticRegression as LR
import pandas as pd
data = pd.read_excel("bankloan.xls")
x = data.iloc[:,:8].as_matrix()
y = data.iloc[:,8].as_matrix()
lr = LR()
lr.fit(x,y)
print(lr.score(x,y))


数据分析4：
import pandas as pd
#(1)
data={'id':[101001,101002,102001,102002],'url':["http://www.a.com/info/?456.html","http://www.b.com/info.html","http://www.c.com/info.html","http://www.d.com/info.html"]}
df=pd.DataFrame(data)

# (2)
import re
df1 = [re.search('101',str(i))!=None for i in df.loc[:,'id']]
df1 = df.loc[df1,:]
df1

# (3)
df2 = [re.sub('\?.*','',str(i)) for i in df1.loc[:,'url']]
(4)
df1.loc[:,'url'] = df2


数据分析5：
Apriori算法过程分为两个步骤：
第一步通过迭代，检索出事务数据库中的所有频繁项集，即支持度不低于用户设定的阈值的项集；
第二步利用频繁项集构造出满足用户最小信任度的规则。
具体做法就是：
首先找出频繁1-项集，记为L1；然后利用L1来产生候选项集C2，对C2中的项进行判定挖掘出L2，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。
每挖掘一层Lk就需要扫描整个数据库一遍。
1） 连接步
为找出Lk（所有的频繁k项集的集合），通过将Lk-1（所有的频繁k-1项集的集合）与自身连接产生候选k项集的集合。
候选集合记作Ck。设l1和l2是Lk-1中的成员。记li[j]表示li中的第j项。假设Apriori算法对事务或项集中的项按字典次序排序，即对于（k-1）项集li，li[1]<li[2]<……….<li[k-1]。将Lk-1与自身连接，如果(l1[1]=l2[1])&&( l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])，那认为l1和l2是可连接。连接l1和l2 产生的结果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}。
2） 剪枝步
CK是LK的超集，也就是说，CK的成员可能是也可能不是频繁的。通过扫描所有的事务（交易），确定CK中每个候选的计数，判断是否小于最小支持度计数，如果不是，则认为该候选是频繁的。
为了压缩Ck,可以利用Apriori性质：任一频繁项集的所有非空子集也必须是频繁的，反之，如果某个候选的非空子集不是频繁的，那么该候选肯定不是频繁的，从而可以将其从CK中删除。


数据分析6：
基于水色图像特征提取的水质评价流程
主要步骤如下:
1)从采集到的原始水样图像中进行选择性抽取形成建模数据。
2)对步骤1形成的数据集进行数据预处理，包括图像切割和颜色矩特征提取。
3)利用步骤2形成的已完成数据预处理的建模数据，划分为训练集与测试集。
4)利用步骤3的训练集构建分类模型。
5)利用步骤4构建好的分类模型进行水质评价。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。