练习生Tony的博客_(4)

pandas 中loc和iloc的区别、用法

loc和iloc的意思： loc是location的意思，和iloc中i的意思是指integer，所以它只接受整数作为参数。具体可见： loc: iloc:loc为Selection by Label函数，即为按标签取数据,例如第一个参数选择index，第二个参数选择column。（当然，如果第二个参数【这个参数是列标签的范围】的个数是全部即 : ，那么可以省略不写，不过还是建议写上去比较严格）

数据

字段

c函数

原创 2022-11-24 12:06:09 1027 阅读

Tf2.0切换GPU与CPU

os.environ["CUDA_VISIBLE_DEVICES"] = "-1"

其它

原创 2022-11-24 12:06:03 158 阅读

面对大数据量时，python提高效率的方法。

进行大型文件的

键值对

数据

函数返回

原创 2022-11-24 12:05:58 76 阅读

记录一下，tensorflow2.0和torch的函数移植对比

其它

转载 2022-11-24 12:05:54 90 阅读

class、object、case class、case object区别！

首先，了解:class 类似Java中的class；object Scala不能定义静态成员，用定义单例对象代之；case class被称为样例类，是一种特殊的类，常被用于模式匹配。一、class 和 object 关系：单例对象不能带参数，类可以；对象可以和类名一样时，object被称为伴生对象，class被称为伴生类；类和伴生对象可以相互访问其私有属性，但是它们必须在一个源文件当中；类只会被编

伴生对象

scala

模式匹配

原创 2022-11-24 12:05:48 144 阅读

提升树AdaBoost算法【自适应增强算法(集成学习算法)】-笔记

法(是一个迭代算法)，即：F(x)=sum(a[m...

决策树

权重

损失函数

原创 2022-11-24 12:05:19 168 阅读

Cenos7下hadoop2.7.7伪分布式模式安装

下是很危险的。sudo...

hadoop

hdfs

xml

原创 2022-11-24 12:05:05 151 阅读

梯度提升树算法GBDT

梯度提升树算法实际上是提升算法的扩展版，在原始的提升算法中，如果损失函数为平方损失或者指数损失，求解损失函数的最小值问题会非常简单，但如果损失函数为更一般的函数(如绝对值函数)，目标值的求解就会相对复杂许多。所以，梯度提升算法诞生，也就是在第m轮基础模型中，利用损失函数的负梯度值作为该轮基础模型损失值(残差)的近似，利用这个近似值构建下一轮基础模型。GBDT(梯度提升树)属于一种有监督的集成学习

损失函数

数据集

数据

原创 2022-11-24 12:04:46 605 阅读

Centos7防火墙常用配置命令

由于最近搭建环境发生端口冲突，所以总结此篇、希望有什么不足和不对的、请大家指出、我尽快改正、一起进步。系统:centos7查看防火墙状态。得到结果是running或者not runningfirewall-cmd --state在running 状态下，向firewall 添加需要开放的端口: 比如：firewall-cmd --permanent --zone=public --add-por

加载

自动启动

ip地址

原创 2022-11-24 12:04:26 523 阅读

Centos7下Hadoop2.7.7单机模式安装配置

环境介绍:Centos7 + jdk1.8.0_211 首先、安装JDK1.8.0，详情请移步Centos7下安装配置JDK创建一个用户hadoop，当然也可以使用root用户操作。(我的是使用root操作) 可以创建一个linux用户叫hadoop作为Hadoop的工作者，因为root下是很危险的。sudo useradd -m hadoop -s /bin/bash #创建hado

hadoop

环境变量

mapreduce

原创 2022-11-24 12:04:06 206 阅读

hadoop大数据相关了解---第一篇

a、SuperMario3.图计算:处理...

物联网

网络管理

基础设施

原创 2022-11-24 12:03:36 35 阅读

hadoop集群的部署和使用的基础原理知识

1、Hadoop的两大核心：HDFS(对底层硬件的需求)与MapReduce(对底层硬件的需求)2、整个Hadoop集群的主要节点类别：【属于HDFS】 NameNode（名称节点、类似目录服务器,）和 DataNode(数据节点、存取数据)【访问规则是：先访问NameNode获得具体的数据存储的地点信息、在跑到具体的地址去取数据节点的数据的信息】3、MapReduce的两大核心组件：JobTr

hdfs

mapreduce

服务器

原创 2022-11-24 12:03:33 120 阅读

hadoop大数据相关了解---第二篇

一、Hadoop应用现状: 1.数据来源：数据源 2.大数据层：((1)(2)(3)的最底层：基于HDFS分布式文件存储) （1）进行高性分析：Hive、Pig、MR (2)进行实时查询：Soir、Redis、Hbase （3）BI分析Mahout 3.访问层：数据分析数据实时查询数据挖掘二、Hadoop版本 1.Hadoop1.0(0.20x、0.21x、0.22x)【在1.0版本里Map

hadoop

mapreduce

数据

原创 2022-11-24 12:03:15 93 阅读

hadoop三种安装模式的基本原理

一、三种安装模式的运行原理: 1.单机模式：Hadoop默认模式、即非分布式模式(本地模式)、无需进行其他配置即可运行非分布式，即java单进程，方便进行调试。 2.伪分布式模式： Hadoop在单节点上以伪分布式的方式运行，Hadoop进程以分离的java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件。 3.分布式模式：使用多个节点构成集群环境来运行

hadoop

big data

ssh

伪分布式

hdfs

原创 2022-11-24 12:03:07 143 阅读

HDFS通信方式与存储原理

通信方式: 注：其实整个HDFS就是一个库，它向外界暴露HDFS文件系统的接口，让用户使用，但是隐藏了其背后实现功能的复杂性。所有操作除了可以通过api来代码操作实现还可以通过shell命令实现。 (1)客户端与名称节点之间的连接:使用客户端的协议(比如TCP/IP); (2)整个集群中名称节点与数据节点之间的交互：使用专门的数据节点协议进行交互; (3)客户端与数据节点交互：通过远程调用RPC

数据

hdfs

客户端

原创 2022-11-24 12:02:44 309 阅读

机器学习--线性回归模型

线性回归模型属于经典的统计学模型，是根据已知的自变量来预测某个连续的数值因变量。她属于有监督的学习算法，也就是在建模过程中需要同时具备自变量x和因变量y。1.、一元线性回归模型一元线性回归模型是入门算法，是指变量中只含有一个自变量和一个因变量，用来建模的数据可以表示为{(x1,y1)…(xn,yn)}，其中xi表示自变量x的第i个值，yi为预测因变量的y值。也就是：y = a + b*x + C

线性回归

建模

拟合

原创 2022-11-24 12:02:28 850 阅读 1点赞

如何快速使用IP代理池?

1.使用自己搭好的代理池或者别人搭建好的代理池，一般都是网页api的形式。【建议多去Github逛逛，有你意想不到的收获，也能提高英语和参与一点项目的改进】（1）第一步当然是你的api地址了。例如：self.PROXY_POOL_URL = 'http://localhost:5000/get' （2）向代理池的api发送请求获取返回的IP【一般以字符串返回】def get_proxy(sel

深度学习

python

pytorch

github

数据库

原创 2022-11-24 12:02:12 741 阅读

pandas的Datafram与numpy数组之间如何转换

转换为Datafram: df = pd.Dataframe(array)

python

算法

数组

原创 2022-11-24 12:02:05 107 阅读

数学建模练习之1选拔问题

题目：一年一度的全国大学生数学建模竞赛是高等院校的重要赛事。由于竞赛场地、经费等原因，不是所有想参加竞赛的人都能被录用。为了能够选拔出真正优秀的同学代表学校参加竞赛，数学建模指导教师需要投入大量的精力，但是每年在参赛的时候还是有很多不如意之处：有的学生言过其实，有的队员之间合作不默契，影响了数学建模的成绩。数学建模需要学生具有较好的数学基础知识、良好的编程能力、较强的写作能力、良好的团队合作精神

线性代数

算法

机器学习

特征向量

数学建模

原创 2022-11-24 12:01:59 213 阅读

初等模型--公平分配问题

问题: 三个系学生共200名（甲系100，乙系60，丙系40），代表会议共20席，按比例分配，三个系分别为10，6，4席。现因学生转系，三系人数为103, 63, 34, 问20席如何分配。分析：如果仅仅使用比例去确定的话会出现一些不可预知的严重错误【是错误不是误差！】。每涉及公平问题，就得考虑相对公平。。。。要解决相对公平问题，就得有一个度量值去衡量问题是否公平。而且，此建立的相对公

数据

严重错误

原创 2022-11-24 12:01:49 134 阅读

Pyhon的json库常用方法

json常用方法1. json.load(json_data)与json.dump(python_data) json.load()用来将读取json文件，json.dump()用来将数据写入json文件2. json.loads()与json.dumps() json.dumps 将 Python 对象编码成 JSON 字符串 json.loads 将已编码的 JSON 字符串解码为 Pytho

json

python

json数据

原创 2022-11-24 12:01:42 96 阅读

常用的Python操作

一、文件通配符,检测当前工作目录下的文件（可以使用os库或者sys库更换工作目录）检索当前工作目录下的py文件import globglob = glob.glob('*.py') #适用正则规则print(glob)二、系统库os的常用import osnowpwd = os.getcwd() #返回当前工作目录print(nowpwd)os.chdir(r'D:\untitled1') #修

随机数

赋值

日期时间

原创 2022-11-24 12:01:29 62 阅读

爬取爬虫学习资料

如有不得当之处，请联系我会及时删除这次的抓取我用的是requests和Xpath,因为没有必要使用大型工具import requestsfrom lxml import etree思路： 1.目的是下载爬虫教程 2.分析网页以及规则，使用Xpath简单获取下载url 3.循环下载代码如下：class github(): def __init__(self): self.allowed_do

github

git

ide

原创 2022-11-24 12:01:20 140 阅读

爬虫必备之selenium

selenium是一个自动化测试的工具，我不是搞那方面的，所以也在那方面的具体应用不太了解。但是，这并不影响我在爬虫和其它方面的使用。安装：使用pip安装就可以了。注：使用selenium之前需要下载chromedriver.exe放入chorme安装的文件夹，并配置环境变量哦！具体自行百度解决。具体使用：一、.声明浏览器对象：browser = webdriver.Chrome()

chrome

搜索

选项卡

原创 2022-11-24 12:01:12 156 阅读

数据科学之sympy库

sympy是一个Python的科学计算库，用一套强大的符号计算体系完成诸如多项式求值、求极限、解方程、求积分、微分方程、级数展开、矩阵运算等等计算问题。 Python以其语法简单、易上手、丰富的三方库生态，个人认为可以更优雅地解决日常生活、工作遇到的各种计算问题。安装：pip install sympy虚数单位isympy.I#i平方sympy.I**2-1的平方根sympy.sqrt(-1自然

python

线性代数

算法

元组

解方程

原创 2022-11-24 12:01:05 411 阅读

正则表达式详解

常见的正则匹配模式最常规的匹配#re.match() 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none.re.match(patter,string,flags=0)content = 'Hello 123 4567 World_this is a Regex Demo'print(len(content))result = re.matc

字符串

正则表达式

匹配模式

原创 2022-11-24 12:01:00 89 阅读

再次Pyinstaller犯错之旅

总觉得Pyinstaller这个包挺好用，这不，今天又用上了之前写过一些脚本来优化办公和一些杂事，比如一些刷课之类得小程序，今天是要打包一个GUI程序。程序中用到了pandas、jieba、numpy、tkinter(不要问我为什么用tkinter，因为PtQt5得坑我还没有踩完！)最大得坑：由于要用到excel文件，故想把excel文件连同py文件一起打包到exe文件中，但是，事实并不想我现

封装

正常运行

解决方法

原创 2022-11-24 12:00:50 61 阅读

BeautifulSoup详解

引入BeautifulSoup：from bs4 import BeautifulSoup#意思就是从bs4这个包里面引入BeautifulSoup这个类之后，使用以下语法来把请求之后的响应传入解析器：soup = BeautifulSoup(response.text, features='lxml')features='lxml’是一个声明解析的方式，相应的解释方式还有:html.parseh

爬虫

python

正则表达式

xml

html

原创 2022-11-24 12:00:44 206 阅读

Python3基础第十篇：字符串常用操作| Python技能树征题

Python的标准库内建了一些常用的字符串操作方法！ join：用一个字符串作为分隔符连接字符串列表。 replace：对字符串进行替换操作。 startswith:判断字符串是否以另一个字符串开头。 endswith：字符串是否以另一个字符串结束。 upper与lower：返回的字符串以大写或者小写的形式。 split：切割字符串为列表。用join方法：list1 = ["I","love","

Python3

字符串操作

字符串常用操作

分割

字符串

原创 2022-11-24 12:00:25 50 阅读

pands数据框(DataFrame)02

...

Dataframe

pandas

python

数据预处理

机器学习基础

原创 2022-11-24 12:00:20 92 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

练习生tony的博客

pandas 中loc和iloc的区别、用法

Tf2.0切换GPU与CPU

面对大数据量时，python提高效率的方法。

记录一下，tensorflow2.0和torch的函数移植对比

class、object、case class、case object区别！

提升树AdaBoost算法【自适应增强算法(集成学习算法)】-笔记

Cenos7下hadoop2.7.7伪分布式模式安装

梯度提升树算法GBDT

Centos7防火墙常用配置命令

Centos7下Hadoop2.7.7单机模式安装配置

hadoop大数据相关了解---第一篇

hadoop集群的部署和使用的基础原理知识

hadoop大数据相关了解---第二篇

hadoop三种安装模式的基本原理

HDFS通信方式与存储原理

机器学习--线性回归模型

如何快速使用IP代理池?

pandas的Datafram与numpy数组之间如何转换

数学建模练习之1选拔问题

初等模型--公平分配问题

Pyhon的json库常用方法

常用的Python操作

爬取爬虫学习资料

爬虫必备之selenium

数据科学之sympy库

正则表达式详解

再次Pyinstaller犯错之旅

BeautifulSoup详解

Python3基础第十篇：字符串常用操作| Python技能树征题

pands数据框(DataFrame)02

欢迎