1、均方差(mean-squared-error) 2、平均绝对值误差(mean_absolute_error) 3.可释方差得分(explained_variance_score) 4.中值绝对误差(Median absolute error) 5.R2 决定系数(拟合优度) 模型越好:r2→1
Pandas pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析
案例1:K-近邻算法预测Facebook签到位置 数据介绍 row_id:登记事件的ID xy:坐标 准确性:定位准确性 时间:时间戳 place_id:业务的ID,预测目标 代码 from sklearn.model_selection import train_test_split,GridSe
人工智能概述 机器学习和人工智能,深度学习的关系 机器学习是人工智能的一个实现途径 深度学习是机器学习的一个方法发展而来 机器学习概述 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。 机器学习算法分类 监督学习(supervised learning)(预测) 定义:输入数据是由
数据集介绍 数据集划分 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75% 测试集:30% 20% 30% API sklearn.model_selection.train_test_split(arrays, *option
朴素贝叶斯算法 朴素贝叶斯算法:朴素 + 贝叶斯 朴素:假设特征与特征之间是相互独立 贝叶斯公式 公式应用在文章分类中,公式可以理解为 公式分为三个部分: P(C):每个文档类别的概率(某文档类别数/总文档数量) P(W│C):给定类别下特征(被预测文档中出现的词)的概率 计算方法:P(F1│C)=
决策树 原理 信息熵 定义:H的专业术语称之为信息熵,单位为比特。 总结:信息和消除不确定性是相联系的 信息增益:决策树的划分依据之一 定义与公式 特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为: 信息增益表示得知特
线性回归 定义与公式 线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。 特点:只有一个自变量的情况称为单变量回归,大于一个自变量情况的叫做多元回归 线性回归当中的关系有两种,一种是线性关系,另一种是非线
逻辑回归 定义 逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归是解决二分类(两个类别之间的判断)问题的利器 原理 输入 逻辑回归的输入就是一个
无监督学习 通俗来讲,无监督学习就是没有目标值 无监督学习包含算法 聚类 K-means(K均值聚类) 降维 PCA K-means原理 K-means的聚类效果图 K-means聚类步骤 随机设置K个特征空间内的点作为初始的聚类中心 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中
import pandas as pd #绘图中文字体 import matplotlib as mpl mpl.rcParams['font.sans-serif']=['SimHei'] # #指定默认字体 SimHei为黑体 mpl.rcParams['axes.unicode_minus']
import pandas as pd data = pd.read_csv("input/abalone_dataset.csv") print(data.shape) #绘图中文字体 import matplotlib as mpl mpl.rcParams['font.sans-serif']
import pandas as pd raw_train = pd.read_csv("input/chinese_news_cutted_train_utf8.csv",sep="\t",encoding="utf8") raw_test = pd.read_csv("input/chinese
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号