机器学习十讲--第五讲-聚类 原创 MoooJL 2021-07-20 09:21:01 博主文章分类:机器学习 ©著作权 文章标签 机器学习 文章分类 机器学习 人工智能 ©著作权归作者所有:来自51CTO博客作者MoooJL的原创作品,请联系作者获取转载授权,否则将追究法律责任 赞 收藏 评论 分享 举报 上一篇:机器学习十讲--第六讲-降维 下一篇:机器学习十讲--第四讲-模型提升 提问和评论都可以,用心的回复会被更多人看到 评论 发布评论 全部评论 () 最热 最新 相关文章 机器学习-KNN聚类算法原理及Python代码实现 K-近邻算法(KNN)算法实现简单、高效。在分类、回归、模式识别等方面有着广泛的应用。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。就比如经常和我一块玩的人有10个人,他们中有6个人是好人,有1个人是比较坏的,有3个人又好又坏的,那么大家就认为我也是个好人,通过我接触某个类型的多少以此来给我定性。对应中国的古话:“近朱则赤,近墨者黑”。所以这个K的取值是很重要的, 机器学习 人工智能 python CNN 近邻算法 经纬度聚类:聚类算法比较 需求:将经纬度数据,根据经纬度进行聚类初始数据data.csvK均值聚类简介K均值(K-means)聚类是一种常用的无监督学习算法,用于将数据集中的样本分成K个不同的簇(cluster)。其基本思想是将数据集划分为K个簇,使得每个样本点都属于距离最近的簇的中心点,同时最小化簇内样本点之间的距离平方和。K均值聚类算法的步骤如下:初始化: 随机选择K个样本点作为初始的簇中心点。分配: 对于每个样本点, 聚类 聚类算法 dbscan 层次聚类 k值聚类 Linux常用命令精讲 1.Linux命令概述shell程序b.shell是Linux中用户与内核之间的翻译官,当用户登录Linux时,Linux会自动加载一个shell程序,在Linux中shell程序对应的文件在/bin/bash2.Linux命令的分类内部命令:是集成于Shell解释器程序(如Bash)内部的一些特殊指令,也称为内建(Built-in)指令。内部命令属于shell的一部分,所以没有单独对应的系统文件 常用命令 《机器学习十讲》学习报告五 数学基础:凸函数与Jensen不等式 凸函数:弦在弧上 聚类:样本没有类别标签,一种典型的无监督学习方法 相同类的样本之间距离较近 不同类的样本之间距离较远 K-means模型 模型求解: 交替迭代法: 固定c优化r, 固定r优化c, 固定c,优化r 固定r,优化c K-Means算法流程 1,随机 机器学习 机器学习十讲--第二讲-回归 import pandas as pd data = pd.read_csv("input/abalone_dataset.csv") print(data.shape) #绘图中文字体 import matplotlib as mpl mpl.rcParams['font.sans-serif'] 机器学习 机器学习十讲--第一讲 import pandas as pd #绘图中文字体 import matplotlib as mpl mpl.rcParams['font.sans-serif']=['SimHei'] # #指定默认字体 SimHei为黑体 mpl.rcParams['axes.unicode_minus'] 机器学习 机器学习十讲--第九讲-深度学习 机器学习 《机器学习十讲》学习报告十 强化学习: 智慧决策的过程,通过过程模拟和观察来不断学习,提高决策能力 策略:在特定状态下应该怎么采取行动 目的:找到最佳策略,即能够获得最大奖励的策略 数学模型: 策略和目标: 在马尔科夫决策过程中,最终需要求解一个策略,他是行动和状态之间的映射 分为确定性策略和随机性策略 目标:最大化累计奖励的 机器学习 机器学习十讲--第六讲-降维 机器学习 机器学习十讲--第三讲-分类 import pandas as pd raw_train = pd.read_csv("input/chinese_news_cutted_train_utf8.csv",sep="\t",encoding="utf8") raw_test = pd.read_csv("input/chinese 机器学习 机器学习十讲--第七讲-最优化 机器学习 《机器学习十讲》学习报告九 深度学习应用领域全面突破:机器翻译 语音识别等 神经元与感知机 多层感知机 多个神经元以全连接层次相连 网络称为前馈神经网络 也称多层感知机 多层感知机能够逼近任何函数 误差函数 梯度计算:后向传播BP: 前向传播计算误差,后向传播计算梯度 机器学习与深度学习之间差别 机器学习 《机器学习十讲》学习报告八 维度灾难: 随着维度的增多,问题的复杂性(或计算代价)呈指数型增长的现象 基于距离的机器学习模型 稀疏度与过度拟合 过度拟合:模型对已知数据拟合较好,新的数据拟合较差 高维空间中样本变得极度稀疏,容易造成过度拟合问题 计算复杂度:决策树 随着维数的增加。计算复杂度指数增长 只能求近似解得到局部最优解 机器学习 《机器学习十讲》学习报告七 机器学习的优化目标 一,梯度下降法 batch梯度下降法: 随机梯度下降SGD 线性衰减然后保持为常数 梯度爆炸和悬崖 解决方法:梯度阶段 启发式梯度截断干涉以减少步长 二,动量法 在参数更新时考虑历史梯度信息 Nesterov动量法 机器学习 《机器学习十讲》学习报告四 一,模型提升方法 模型误差来源: 逼近误差 估计误差:训练到的函数与模型空间最好的函数的距离 线性到非线性模型: 线性回归:多项式回归 支持向量机 决策树:空间划分的思想来处理非线性数据 决策树的生成: 从根节点开始,选择对应特征 选择节点特征分割点 二,节点特征和分割点的选择 不纯度:表示落在当前 机器学习 《机器学习十讲》学习报告一 一,大数据的基本公式: 机器学习就是在获得很多组的x数据和y数据以后获得F映射的一个过程 深度学习是机器学习的一部分,就是在获得data后提取出x数据的过程 如果数据y用来模仿人类的行为,例如自动驾驶等,就称其为人工智能 二,机器学习方法分类: 1,有监督学习 就是数据y包含已经有的结果标签 用处: 机器学习 《机器学习十讲》学习报告二 回归: 指用一个或多个自变量预测因变量的数学方法 一元线性回归: 模型为y=w1x+w0 目标是所有样本落在直线附近 多元线性回归: 多重共线性:变量之间存在较强的共线性,对参数估计得不准确,造成过度拟合的现象 LASSO系数压缩估计方法 误差: 机器学习 《机器学习十讲》学习报告六 数据维度灾难需要降维 实际数据会有很多的维度,但对数据处理时,不能将所有数据的维度都当做一个参数,那样就会导致我们口中的维度灾难 那么,维度灾难该怎么处理呢 1主要成分分析 基本思想:构造原始特征的一系列线性组合形成的线性无关低纬特征,以去除数据的相关性,并使降维后的数据最大程度的保持原始高维数据的 机器学习 《机器学习十讲》学习报告三 点到平面距离: 梯度下降法: 最大似然法: 如何做分类? 感知机: 找到一条直线将两类数据分开 支持向量机: 找到一条直线将两类数据分开,还要使数据离直线尽可能的远 逻辑回归: 使观察到训练集的“可能性”最大 分类问题的评价指标: 机器学习 机器学习十讲--第四讲-模型提升 机器学习 nginx iphash不平衡 在上一篇博客我们介绍了 Nginx 一个很重要的功能——代理,包括正向代理和反向代理。这两个代理的核心区别是:正向代理代理的是客户端,而反向代理代理的是服务器。其中我们又重点介绍了反向代理,以及如何通过 Nginx 来实现反向代理。那么了解了Nginx的反向代理之后,我们要通过Nginx的反向代理实现另一个重要功能——负载均衡。1、负载均衡的由来 早期的系统架构,基本上都是如下形式的: &nb nginx iphash不平衡 服务器 负载均衡 Nginx 数据库的process 优化器是数据库的核心,决定了每条语句如何执行。如果将数据库比作一支军队,那么优化器就是这支军队的主将、军师,需要运筹帷幄,决胜于千里之外。俗话说一将无能累死三军,同样的一条语句,选择不同的查询计划,最终的运行时间可能会相差很大。对优化器的研究一直是学术界比较活跃的领域,优化是永无止境,可以说在这块投入多大的精力都不为过。 从优化方法上,大致可以分为三类:• Rule based optimizer 数据库的process 数据库 sed 查询优化 无法连接linux samba服务器 经过几天的反复学习,终于整理出来了。Linux连接xshell连接时要注意的问题。 下面开始讲述我的实现步骤: 1.先检查是否关闭防火墙。(或者再防火墙上开放sshd服务)systemctl stop firewalld //停止防火墙命令 firewall-cmd --state //防火墙状态 not running //执行结果 停止运行防火墙设置: 2.查看ssh服务是否开启 开启ss 无法连接linux samba服务器 配置文件 网络接口 桥接模式 TortoiseSVN服务如何创建 立新的Repositores 输入新的Repository 的名字 选择第二项就会在版本库中会默认建立trunk,branches,tags三个文件夹 这里设置版本库的权限 点击Create就建立好了 在项目文件夹上点击鼠标右键,找到SVN菜单,选择import, 将版本库的url填入,并填写导入信息& TortoiseSVN服务如何创建 版本库 用户组 svn Java 判断Node节点在word中第几页 1、前言 虽然现在很多场合都转向了json,但是解析xml还是会在很多场合用上。2、node和element的区别1、element: 元素是一个小范围的定义,必须是含有完整信息的结点才是一个元素 例如<div>...</div>。但是一个结点不一定是一个元素,而一个元素一定是一个结点。2、nod json 数据结构与算法 XML xml 结点