1. 说明 本文并非介绍某个成熟算法或者工具,只是个人的一点感悟,写得可能不正确,不全面,希望能给大家带来一些启发,也欢迎各位回复讨论。2. 特征工程 大数据相关的工作可简要地归纳为:模型部分和数据部分,在模型部分,目前大家的做法主要是拿现成的模型来用,对其做内部修改或重写的很少,主要工作在选型和调参。  相对来说,对数据部分做的工作更多,在比赛中数据都是固定的,且很多时候数据已脱敏,特征工程能做            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-05-19 20:55:07
                            
                                17阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            最近做个项目需要对收集到的数据进行实时刷新,原先考虑让获得的数据之间输出到txt文本,然后又文本导入到数据库,但是txt在修改查找的时候要把数据都读入到内存在进行相关改动,这样就很耗内存,而且文件占用率比较高,有可能excel在刷新连接的时候会出现冲突,所以用数据进行操作。在安装好数据库,和数据库驱动的情况下在控制面板-->管理工具-->数据源(ODBC)-->添加--〉选择相应            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 01:22:11
                            
                                93阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大             
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-08-24 15:20:17
                            
                                118阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            【温馨提示】亲爱的朋友,阅读之前请您点击【关注】,您的支持将是我最大的动力!       在日常使用Excel处理数据时,相信小伙伴们对于筛选功能已经是不陌生了,Excel筛选功能可以快速有效的帮助我们处理大量的数据,将我们想要的结果一一列出来,是我们分析数据的好帮手。今天小编就来分享一组筛选和高级筛选的使用技巧。先来看看本节教程要学习的目录导图       调出筛选功能的方法:选中表头行,点击【            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-01-29 22:45:49
                            
                                99阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             sqlserver 的筛选索引(filter index)与常规的非筛选索引,加了一定的filter条件,可以按照某些条件对表中的字段进行索引,但是filter 索引在查询 使用上,并不等同于常规的索引,如果忽略了这些差异,可能会造成潜在的问题,因此在使用filter索引的时候,一定要结合具体的查询,做充分的测试。测试caseif object_id('test_filter_inde            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-19 21:28:21
                            
                                100阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            全部数据: IN的使用:这里要用(),不用或者' 25'会报错 LIKE的使用: 1.使用%:通配符,任意字符 注:似乎%通配符可以匹配任何东西,但有一个例外,即NULL。 2.使用_:通配符,代替一位: ...            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2021-08-18 16:44:00
                            
                                246阅读
                            
                                                                                    
                                2评论
                            
                                                 
                 
                
                             
         
            
            
            
            参考数据表名:person 
 id nameage1atom1112atom2223atom3334atom221、IN操作符如果我们想搜索姓名为atom和atom2的搜索数据应该怎们办呢?可以用or来搜索:SELECT age,name FROM person WHERE name = "atom" or name = "atom2"还有一种方法可以使用in来进行筛选:SELE            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-03-04 16:36:43
                            
                                84阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            SQL是一种用于管理关系型数据库的语言,它可以帮助用户轻松地查询、插入、更新和删除数据。除了基本的语法,SQL还有许多高级用法,可以帮助用户更好地管理和分析数据。一、联结查询联结查询是SQL中最常用的高级查询技术之一。它可以将两个或多个表中的数据连接起来,以便用户可以更好地分析数据。联结查询可以使用内联结、左联结、右联结和全联结等不同的方式进行。 例如,我们可以使用以下SQL语句将两个表中的数据连            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-05 09:21:00
                            
                                177阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            SQL Server-过滤数据1、使用where子句2、where子句操作符2.1、检查单个值2.2、不匹配检查2.3、范围值检查2.4、空值检查3、所有代码  该文章中使用的数据表创建于我的另一篇博客 点击前往1、使用where子句在select语句中,数据根据where子句中指定的搜索条件进行过滤。where子句在表名(from子句)之后给出。示例:select *from 学生表 wher            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-02 22:48:13
                            
                                143阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            SQLServer-按字段分组后取日期最新的一条            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-05-21 21:23:37
                            
                                1616阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            4.1 使用 WHERE 子句 数据库表一般包含大量的数据,很少需要检索表中的所有行。通常只会根据特定操作或报告的需要提取表数据的子集。只检索所需数据需要指定搜索条件(search criteria),搜索条件也称为过滤条件(filter condition)。 在 SELECT 语句中,数据根据 WHERE 子句中指定的搜索条件进行过滤。WHERE 子句在表名( FROM 子句)之后给出,如下所            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-18 20:37:42
                            
                                222阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            前言        确实,关于SQL的学习资料,各类文档在网上到处都是。但它们绝大多数的出发点都局限在旧有关系数据库里,内容近乎千篇一律。而在当今大数据的浪潮下,SQL早就被赋予了新的责任和意义。        本篇中,笔者将结合过去在A公司和T公司大数据部门的学习工作经历,对传统SQL语法进行一次回顾性学习。同时,思            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-10-11 19:04:39
                            
                                89阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            本文介绍SQL如何筛选数据表内的数据,包含WHERE子句,高级用法及通配符的用法。            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2022-12-15 17:10:12
                            
                                1754阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            网上经常盛传 大数据=sql boy,后端开发=crud boy,算法工程师=调参boy在大数据领域也工作了好几年了,确实大数据开发,很多工作就是写sql,hive sql、spark sql、flink sql等等sql一、背景:但是经常有这样一个需求,一大段sql 跑出来之后,发现不是自己想要的结果?比如:demo 1:
select id,name from (
select id,name            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-11-03 12:10:58
                            
                                59阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            常写的SQL可能主要以实现查询出结果为主,但如果数据量一大,就会突出SQL查询语句优化的性能独特之处.一般的数据库设计都会建索引查询,这样较全盘扫描查询的确快了不少.下面总结下SQL查询语句的几个优化效率的地方,经验有限,难免有不足.1、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引2、避免在索引列上使用NOT在 where 子句中对字段进行            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-13 23:46:25
                            
                                408阅读
                            
                                                                             
                 
                
                             
         
            
            
            
            1.过滤数据 讲授SELECT语句的WHERE子句指定搜索条件 使用WHERE子句数据库表包含大量的数据,很少需要检索表中的所有行.通常只会根据特定操作或报告的需要提取表数据的子集.只检索所需数据需要指定搜索条件,搜索条件也称为过滤条件.在SELECT语句中,数据根据WHERE子句中指定的搜索条件进行过滤,WHERE子句在表名(FROM子句)之后给出,如下所示:从prodcuts表中检索三个列,但            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-09-16 19:58:47
                            
                                197阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
             文章目录概念法则语法对表进行修改SELECT基础聚合查询普通聚合分组查询ORDER BYINSERT INTODELETEUPDATE事务视图子查询标量子查询关联子查询函数算数函数字符串函数日期函数谓词CASE集合运算表的加减法联结内联结窗口函数RANK/DENSE_RANK/ROW_NUMBER使用聚合函数作为窗口函数grouping运算符ROLLUPCUBEGROUPING SETS 概念1            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-12-19 22:25:44
                            
                                129阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            开发一款支持标准数据库 SQL 的大数据仓库引擎,希望让那些在 Oracle 上运行良好的 SQL 可以直接运行在Hadoop 上,而不需要重写成 Hive QL。Hive 的主要处理过程,大体上分成三步:1. 将输入的 Hive QL 经过语法解析器转换成 Hive 抽象语法树(Hive AST)。2. 将 Hive AST 经过语义分析器转换成 MapReduce 执行计划。3. 将生成的 M            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2023-06-20 13:56:02
                            
                                168阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            我在上篇文章中讲到过,提升查询效率的一个很重要的方式,就是约束返回结果的数量,还有一个很有效的方式,就是指定筛选条件,进行过滤。过滤可以筛选符合条件的结果,并进行返回,减少不必要的数据行。那么在今天的内容里,我们来学习如何对 SQL 数据进行过滤,这里主要使用的就是 WHERE 子句。你可能已经使用过 WHERE 子句,说起来 SQL 其实很简单,只要能把满足条件的内容筛选出来即可,但在实际使用过            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-07-27 13:00:20
                            
                                89阅读
                            
                                                                             
                 
                
                                
                     
                                    
                             
         
            
            
            
            SQL需求筛选同一部门,同一供应商,30天内采购累计金额达到5万元(含)的记录;建表语句CREATE TABLE `same_dept` (
  `id` int(10) NOT NULL COMMENT '报账单id',
  `dept_name` varchar(20) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '部门名称',
  `accoun            
                
                    
                        
                                                            
                                                                        
                                                                                        转载
                                                                                    
                            2024-08-22 11:21:58
                            
                                153阅读
                            
                                                                             
                 
                
                                
                    