Hadoop主要有两个部分:数据处理框架(mapreduce)和分布式数据存储文件系统(HDFS) 众所周知,Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。 Hadoop被设计成一种非常“鲁棒”的系统,即使某台服务器甚至集群宕机了,运行其上的大数据分析应用也不会中断。此外H
转载
2023-07-12 15:37:37
40阅读
DevOps通俗理解
在软件开发领域中,DevOps是一个热门的话题。但对于非技术背景的人来说,这个术语可能会让人感到困惑。究竟什么是DevOps?为什么它如此重要?让我们以通俗易懂的方式来解释一下。
DevOps是“开发”(Development)和“运维”(Operations)这两个词的缩写。它是软件开发和运维团队之间一种协作的文化、工具和实践方式。传统上,开发团队负责编写代码,而运维团
原创
2024-02-04 10:37:46
63阅读
MPLS通俗理解
MPLS,全称为Multi-Protocol Label Switching,是一种网络传输技术,常用于构建更加高效和可靠的网络服务。MPLS技术可以在网络层实现数据的转发,它通过标记(Label)数据包,将数据包传递到目的地,而无需在每个路由器上都进行路由表查找。这种标记和传输的方式,使得MPLS技术在提高网络传输效率和质量方面具有很大的优势。
MPLS技术的原理非常简单,
原创
2024-03-08 10:52:46
136阅读
通俗理解信息熵前段时间德川和我讲解了决策树的相关知识,里面德川说了一下熵,今天整理了一下,记录下来希望对大家理解有帮助~1信息熵的公式先抛出信息熵公式如下:其中代表随机事件X为的概率,下面来逐步介绍信息熵的公式来源!2信息量信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?多少信息用信息量来衡量,我
原创
2020-11-23 14:40:45
236阅读
通俗理解条件熵前面我们总结了信息熵的概念通俗理解信息熵,这次我们来理解一下条件熵。1信息熵以及引出条件熵我们首先知道信息熵是考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。公式如下:我们的条件熵的定义是:定义为X给定条件下,Y的条件概率分布的熵对X的数学期望这个还是比较抽象,下面我们解释一下:设有随机变量(X,Y),其联合概率分布为条件熵H(Y|X)表示在已知随机变量X的条件
原创
2020-11-23 14:45:39
998阅读
# 如何实现Java IO通俗理解
## 一、整体流程
首先让我们来看一下实现Java IO的整体流程:
| 步骤 | 描述 |
| --------------- | ---------------------------------------------
原创
2024-07-09 04:32:47
19阅读
架构设计师与SOA(第一部分)
SOA(
Service-Oriented Architecture),即面向服务的架构,这是最近一两年出现在各种技术期刊上最多的词汇了。现在有很多架构设计师和设计开发人员简单的把SOA和Web Services技术等同起来,认为SOA就是Web Service的一种实现。本质上来说,SOA体现的是一种新的系统架构,SOA的
先看下关系型数据库中的一些基本概念:实体:现实世界中客观存在并可以被区别的事物。比如“一个学生”、“一本书”、“一门课”等等。值得强调的是这里所说的“事物”不仅仅是看得见摸得着的“东西”,它也可以是虚拟的,不如说“老师与学校的关系”。 属性:教科书上解释为:“实体所具有的某一特性”,由此可见,属性一开始是个逻辑概念,比如说,“性别”是“人”的一个属性。在关系数据库中,属性又是个物理概念,属性可以
原创
2014-04-02 15:51:11
1783阅读
文章目录1.人工神经网络1.1 神经元1.2 激活函数1.3 神经网络2.卷积神经网络之层级结构3. CNN之卷积计算层3.1 CNN怎么进行识别3.2 什么是卷积3.3 图像上的卷积3.4 GIF动态卷积图4.CNN之激励层与池化层4.1 ReLU激励层4.2 池化pool层1.人工神经网络
转载
2021-06-18 15:42:00
470阅读
通俗理解KMP算法前言如果要比较字符串是否相等或包含,通常的情况下一般是一个个迭代的去比较,比如要比较的字符串长度为20,那么就要比较20次,这样的效率是非常低的。作用上面的字符串比较效率太低,我们是否能够获得已知的情况,来减少对字符串判断的次数呢?比如说子字符串(要比较的字符串)和父字符串(被比较的字符串)来比较是否相等,首先子字符串匹配了前面的3个字符都相等,那我们是否...
原创
2021-07-14 16:55:38
441阅读
在分布式系统中,有一个基本原则叫做CAP,consistence,一致性,availability,可用性,partition tolerance分区容错性。 一致性,在这里指的是分布式系统的各个副本的值要保持同步,这里强的是空间上的一致,注意和数据库中ACID中的一致性相区分,那个一致性指的是事务
转载
2020-10-21 19:58:00
339阅读
2评论
自己买了个服务器,前不久搭建好的一个网站,想要再搞一个站点,无奈只能修改端口后,再部署另外一个站点。繁琐的配置运行环境,迁移网站,是否让你感觉到很繁琐?服务器不想用了,想搬迁到另外一台服务器去部署,先是拷贝原有数据,在新的服务器上又开始搭建环境
转载
2019-05-27 11:48:00
167阅读
2评论
从一个例子说起背景假如你穿越回高中,你和你女朋友在教室遥远的对角落,只能通过传纸条来进行交流(不能直接说话,不然会被抓到早恋,hh),但是又不想纸条的内容内中间传递人给看到,那怎么样才能达到这样的效果呢?STEP ONE这里我们假设男女对象是A和B,中间传递纸条的人为C这个时候第一想法就是,使用对称加密的方式,A使用秘钥对消息进行对称加密,然后B也通过同一份秘钥进行解密,这样就算C看到消息,也是密
原创
2024-07-18 14:59:25
107阅读
bff项目一、bff1. Back-end For Front-end: 服务于前端的后端 可以调用不同的系统的一个或者多个接口进行数据的聚合、过滤,而只向外部暴露一个接口即可2.优点:前后端彻底分离业务更向前靠拢,琐碎的api由前端开发自己决定留给后端更清晰的服务边界,只需要提供粗粒度的接口即可3.缺点:响应时间延迟(服务如果是内网之间访问,延迟时间较低)编写起来较为浪费时间(因为在基础服务上添
AOP概念AOP(Aspect Oriented Programming),即面向切面编程(也叫面向方面编程,面向方法编程)。其主要作用是,在不修改源代码的情况下给某个或者一组操作添加额外的功能。像日志记录,事务处理,权限控制等功能,都可以用AOP来“优雅”地实现,使这些额外功能和真正的业务逻辑分离开来,软件的结构将更加清晰。AOP是OOP的一个强有力的补充。AOP术语AOP的术语不太直观,Spr
1信息熵的公式先抛出信息熵公式如下:其中p(xi)代表随机事件X为Xi的概率,下面来逐步介绍信息熵的公式来源!2信息量信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大
原创
2020-11-24 23:19:10
586阅读
iForest (Isolation Forest)孤立森林 异常检测 入门篇iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章 PDF)。其可以用于网络安全中的攻击检测,金融交易欺
假设模型某一层有个权重矩阵 W∈R^d×k 传统微调:更新 W (超多参数)LoRA 做两件事: 冻结 W(保持原样,不动) 只加一个低秩修正项
信息熵的公式 先抛出信息熵公式如下:其中p(xi)代表随机事件X为Xi的概率,下面来逐步介绍信息熵的公式来源! 2信息量 信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个...
转载
2018-08-13 12:57:59
411阅读
1.数据存储与分析问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长从多个磁盘上进行并行读写操作是可行的,但是存在以下几个方面的问题:1).第一个问题是硬件错误。使用的硬件越多出错的几率就越大。一种常用的解决方式是数据冗余,保留多分拷贝,即使一份数据处理出错,还有另外的数据。HDFS使用的也是类似的方式,但稍有不同。2).第二个问题是数据处理的相
转载
2023-07-30 22:46:07
48阅读