机器学习与深度学习基本概念学习笔记

原创

天人合一peng 2021-08-17 17:15:26 ©著作权

文章标签 数据归一化特征工程特征抽取缺失值 文章分类 深度学习人工智能

©著作权归作者所有：来自51CTO博客作者天人合一peng的原创作品，请联系作者获取转载授权，否则将追究法律责任

机器学习与深度学习基本概念学习笔记_数据

机器学习与深度学习基本概念学习笔记_归一化_02

机器学习与深度学习基本概念学习笔记_特征抽取_03

机器学习与深度学习基本概念学习笔记_特征工程_04

机器学习与深度学习基本概念学习笔记_归一化_05

机器学习与深度学习基本概念学习笔记_缺失值_06

机器学习与深度学习基本概念学习笔记_归一化_07

机器学习与深度学习基本概念学习笔记_特征抽取_08

机器学习与深度学习基本概念学习笔记_数据_09

机器学习与深度学习基本概念学习笔记_归一化_10

机器学习与深度学习基本概念学习笔记_数据_11

机器学习与深度学习基本概念学习笔记_缺失值_12

机器学习与深度学习基本概念学习笔记_归一化_13

机器学习与深度学习基本概念学习笔记_归一化_14

什么是机器学习

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测

数据来源与类型

机器学习与深度学习基本概念学习笔记_特征抽取_15

数据类型

• 离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，所

有这些数据全部都是整数，而且不能再细分，也不能进一步提高他

们的精确度。

• 连续型数据：变量可以在某个范围内取任一数，即变量的取值可以是连续

的，如，长度、时间、质量值等，这类整数通常是非整数，含有小数

部分。

注：只要记住一点，离散型是区间内不可分，连续型是区间内可分

机器学习与深度学习基本概念学习笔记_特征工程_16

Kaggle网址：https://www.kaggle.com/datasets

UCI数据集网址： http://archive.ics.uci.edu/ml/

scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

机器学习与深度学习基本概念学习笔记_归一化_17

数据特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

特征工程的意义：•直接影响模型的预测结果

机器学习与深度学习基本概念学习笔记_缺失值_18

数据特征抽取

机器学习与深度学习基本概念学习笔记_特征抽取_19

sklearn特征抽取API

• sklearn.feature_extraction

字典特征抽取作用：对字典数据进行特征值化

类：sklearn.feature_extraction.DictVectorizer

机器学习与深度学习基本概念学习笔记_特征工程_20

机器学习与深度学习基本概念学习笔记_特征抽取_21

"coding = utf-8"

from sklearn.feature_extraction import DictVectorizer

def dictvec():
    """
    对数据进行特征工程化处理
    :return:
    """
    dict = DictVectorizer(sparse=False)

    Xdata = [{"city": "beijing", "temperature": 100},
             {"city": "shanghai", "temperature": 90},
             {"city": "shenzhen", "temperature": 80},
             {"city": "lanzhou", "temperature": 75},]
    data = dict.fit_transform(Xdata)

    print(data)
    print(dict.get_feature_names())
    print(dict.get_params())

    return  None



def main():

    print(10*"=")
    dictvec()


if __name__ == "__main__":
    main()

机器学习与深度学习基本概念学习笔记_缺失值_22