寒月谷的博客_数据库,GIS知识,pandas

将博客搬至CSDN

1

原创 2020-10-22 14:03:38 944 阅读 1评论

hive常用功能：Hive数据导入导出方式

Hive数据导入方式,Hive数据导出方式。hive，hdfs数据

hive

原创 2019-09-12 19:32:58 4531 阅读

spark常用功能：使用Spark计算数列统计值

是iris分类数据集，数据下载地址为：http://archive.ics.uci.edu/ml/datasets/Iris。体验一把Spark SQL，相关更多关于原理相关的知识，统计值spark计算

spark

转载 2019-09-12 19:18:47 10000+阅读

震惊！不需hadoop环境运行scala和pyspark程序

Databricks官方是这样描述Databricks优势的：像Databricks这样的云平台提供了一套集成的、主机托管的解决方案，消除了企业采用Spark和确保大数据项目成功所面临的这三大障碍。我们为你提供了全面管理和调优的Spark集群，开发Spark的一群专家在大力支持。我们的平台为你提供了一种互动式工作区域，以便探查、可视化、合作和发布。如果你已准备好进入生产环境，只要点

spark

pyspark

原创 2019-05-21 15:17:05 2049 阅读 1点赞

mysql分号分割开字段。拆分

问题-：mysql如何进行以,分割的字符串的拆分分割开逗号分号的字段。其他字段自动补齐。https://blog.csdn.net/u012009613/article/details/52770567SELECTs.*from(SELECTt.ID,t.time_old,substring_index(substring_index(t.all_content,'；',b.help_topic_

分割字段

mysql

原创 2019-05-13 17:26:20 5930 阅读

keras基于CNN和序列标注的对联机器人

动手#“对对联”，我们可以看成是一个句子生成任务，可以用seq2seq完成分析#然而，我们再细想一下就会发现，相对于一般的句子生成任务，“对对联”有规律得多：1、上联和下联的字数一样；2、上联和下联的每一个字几乎都有对应关系。如此一来，其实对对联可以直接看成一个序列标注任务，跟分词、命名实体识别等一样的做法即可。这便是本文的出发点。说到这，其实本文就没有什么技术含量了，序列标注已经是再普通不过的任

keras

seq2seq

nlp

转载 2019-03-13 14:47:19 1523 阅读

maxmini极大极小搜索 α-β剪枝

https://www.cnblogs.com/hhh5460/p/7082112.html?from=singlemessage&isappinstalled=0python井字棋（TicTacToe）_读懂极大极小搜索和α-β剪枝https://blog.csdn.net/housong_csdn/article/details/73920746

ai

翻译 2018-09-20 15:10:52 3891 阅读

XGBoost 参数说明

XGBoost使用key-value字典的方式存储参数：params = { 'booster': 'gbtree', 'objective': 'multi:softmax',

xgboost

翻译 2018-09-10 16:49:47 9072 阅读

DC比赛员工离职预测训练赛（逻辑回归）

先去掉些不要的列。（2）Attrition：员工是否已经离职，数量和部门的关系。薪酬水平与离职率的叠加条形图。注意，对象为object类型，会导致后面运行出错，发现，改变样本和测试集比例会影响分数，——————得到结果。refer灵感:https://www.colabug.com/4055159.htmlone-hot编码——：https://blog.csdn.net/lujiandong1/

数据分析

逻辑回归

原创 2018-09-07 17:38:03 8336 阅读 1收藏 1评论

pd-- get_dummies进行one-hot编码

离散特征的编码分为两种情况：1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码>importpandasaspddf=pd.DataFrame([['gree

特征处理

转载 2018-09-07 15:54:23 4084 阅读

Hyperopt调参时: 'generator' object is not subs

原因与解决方案思考:pip装的时候就有警告，所以最先考虑的是类库问题,但是是在找不到是那个类库的问题,查了Hyperopt源码也没什么用.大概僵持了二十分钟,决定还是去Github查查issues.确实找到了解决方案.原因与解决底层库networkx更新造成的,Hyperopt不支持networkx-2.0,我换成了1.11版本就OK了.pipinstallnetworkx==1.11

sklearn

subs

原创 2018-08-24 10:42:19 876 阅读

sql题 --

需求：分月统计访问人数：截取从1开始取7个字符长度。原始数据如右边所示：成功：

hive

mysql

原创 2018-08-17 17:05:16 3776 阅读

函数 -重复尝试 retry

函数重复执行直到：返回Chrme/35--等于或大于30的Chrome/**

python

keepalived

原创 2018-08-13 17:54:08 4123 阅读

pandas 操作-2

方法1：方法2：

pandas

操作-2

原创 2018-08-10 17:04:42 1034 阅读

hadoop-2.7.6 安装，hive安装

http://www.powerxing.com/install-hadoop/

hadoop

hive

原创 2018-08-03 14:57:32 1655 阅读

HIVE -- 2 感悟

****Hive学习使用一周感悟****最近一段时间主要在学习HiveSQL语句并完成了一个小任务，熟悉了HiveSQL的基本语法和应用，对进一步学习使用HiveSQL来分析处理数据打下了一个基础。数据科学领域最重要的在于数据本身，一起技能和工具都是过程，数据既是开始也是结果，所以在处理数据时首先要了解数据。以HiveSQL表的join为例，在分析使用哪种语句之前，首先要确定自己想要得到的表需要是

hive

感悟

原创 2018-08-02 16:02:01 1127 阅读

P2P中的 RFM模型如何实际应用

https://www.zhihu.com/question/49439948/answer/130220645RLMF的模型那我们再回到客户关系里来，做一个简单的模型。图表显示了从客户第一次购买到上一次购买的时间轴，柱状图代表了客户每次购买的金额和频率。我们可以看到，除了R、F、M，这个模型里加入了客户的“长度”这个概念，客户和我们做生意多久了，就叫“L”吧（Length）。

数据

分析

实例

原创 2018-08-02 15:54:13 2264 阅读

hadoop--Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

Pig一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。：）Pig是一种数据流语言，用来快速轻松的处理巨大的数据。Pig包含两个部分：PigInterface,PigLatin。Pig可以非常方便的处理HDFS和HBase

hadoop

Hadoop生态

关系

区别

原创 2018-08-02 14:19:06 1728 阅读

python进阶

5、and和orand返回第一个假值，如果都为真，返回最后一个真值。or返回第一个真值，如果都为假，返回最后一个假值。复制代码>>>a="first">>>b="second">>>1andaorb1'first'>>>0andaorb2'second'复制代码类似于：bool?a:b安全使用：>>>a=""

语法

python

进阶

原创 2018-08-02 11:29:59 831 阅读

pandas* 尝试-2 **2列生成字典形式

![](http://i2.51cto.com/images/blog/201807/30/a8ad087aa3e0d0b882ee9b87347e1165.png?x-oss-process=image/watermark,size_16,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_100,g_se,x_10,y_10,shadow_90,type_ZmFuZ3po

pandas

原创 2018-07-30 15:47:31 1790 阅读

peewee的使用 python orm （加爬虫技术）

自动提交，和定义tablename。爬虫。--自动判断返回的编码resp.encoding=resp.apparent_encoding

peewee

使用

orm

原创 2018-07-13 18:04:40 2741 阅读

navicat，mysql常用操作

navicat复制一个表里所有的字段的快捷方式阅读数：2708有时需要复制一个表里的所有的字段用来拼写sql字段列表，并且还需要以逗号连接。可用sql查：1.这种是以逗号连接的字段列表：selectgroup_concat(COLUMN_NAME)frominformation_schema.COLUMNSwheretable_name='表名';2.直接显示字段，蓝色标记部分可不写SELECTC

mysql

pgsql

原创 2018-07-05 15:19:58 3716 阅读 1收藏

pandas处理大数据的技巧

大文本数据的读写有时候我们会拿到一些很大的文本文件，完整读入内存，读入的过程会很慢，甚至可能无法读入内存，或者可以读入内存，但是没法进行进一步的计算，这个时候如果我们不是要进行很复杂的运算，可以使用read_csv提供的chunksize或者iterator参数，来部分读入文件，处理完之后再通过to_csv的mode='a'，将每部分结果逐步写入文件。to_csv,to_excel

pandas

技巧

原创 2018-07-05 09:53:35 10000+阅读

总结 logistic回归,随机森林,AdaBoost,KNN,常用的机器学习算法

贝叶斯分类器核心：将样本判定为后验概率最大的类决策树核心：一组嵌套的判定规则KNN算法核心：模板匹配，将样本分到离它最相似的样本所属的类PCA核心：向重构误差最小（方差最大）的方向做线性投影LDA核心：向最大化类间差异、最小化类内差异的方向线性投影LLE（流形学习）核心：用一个样本点的邻居的线性组合近似重构这个样本，将样本投影到低维空间中后依然保持这种线性组合关系等距映射（流形学习）核心：将样本投

机器学习

转载 2018-07-02 09:40:26 2976 阅读

pandas和 excel 尝试

增加一个求和：：新增最后一行，15行，求和：ok求state(美国各州)列的缩写.加到abbrev这一列:refer:https://blog.csdn.net/suzyu12345/article/details/50593512

pandas

python3

原创 2018-06-26 17:01:32 2864 阅读

正则表达式

下图列出了Python支持的正则表达式元字符和语法：1-1Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例，然后使用Pattern实例处理文本并获得匹配结果（一个Match实例），最后使用Match实例获得信息，进行其他的操作。#encoding:UTF-8importre#将正则表达式编译成Pattern对象pattern=r

re

RE

原创 2018-06-21 17:57:40 699 阅读

python批量修改txt文件,csv文件编码格式

fromosimportlistdirfromchardetimportdetectfns=(fnforfninlistdir()iffn.endswith('.csv'))forfninfns:withopen(fn,'rb+')asfp:content=fp.read()encoding=detect(content)['encoding']content=content.decode(enc

python

编码格式

原创 2018-06-15 09:30:49 10000+阅读

pgsql 去重

还有2种方法，参考：https://yq.aliyun.com/articles/93515?t=t1

pgsql

去重

原创 2018-06-12 15:57:09 3308 阅读

奥维ovobj 文件，转化为shp文件，再变sql文件导入到pgsql里

先变KML文件。再用QGIS的矢量变成shp文件。**最后。shp2pgsql-Wutf8-s4326/home/manbug/ningbo/NB.shpningbo_524>/home/manbug/ningbo/NBnew.sqlhttps://www.cnblogs.com/think8848/p/6929351.html

pgsql

gis

原创 2018-06-08 15:30:53 10000+阅读

深入MNIST，手写数字，加cnn

from__future__importprint_functionimporttensorflowastffromtensorflow.examples.tutorials.mnistimportinput_data#number1to10datamnist=input_data.read_data_sets('MNIST_data',one_hot=True)defcompute_accura

Tensorflow

python

原创 2018-06-07 14:48:33 10000+阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

python数据分析

将博客搬至CSDN

hive常用功能：Hive数据导入导出方式

spark常用功能：使用Spark计算数列统计值

震惊！不需hadoop环境运行scala和pyspark程序

mysql分号分割开字段。拆分

keras基于CNN和序列标注的对联机器人

maxmini极大极小搜索 α-β剪枝

XGBoost 参数说明

DC比赛员工离职预测训练赛（逻辑回归）

pd-- get_dummies进行one-hot编码

Hyperopt调参时: 'generator' object is not subs

sql题 --

函数 -重复尝试 retry

pandas 操作-2

hadoop-2.7.6 安装，hive安装

HIVE -- 2 感悟

P2P中的 RFM模型如何实际应用

hadoop--Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

python进阶

pandas* 尝试-2 **2列生成字典形式

peewee的使用 python orm （加爬虫技术）

navicat，mysql常用操作

pandas处理大数据的技巧

总结 logistic回归,随机森林,AdaBoost,KNN,常用的机器学习算法

pandas和 excel 尝试

正则表达式

python批量修改txt文件,csv文件编码格式

pgsql 去重

奥维ovobj 文件，转化为shp文件，再变sql文件导入到pgsql里

深入MNIST，手写数字，加cnn