一. 业务场景及实现原理:源数据存储在Hbase中,需要将源数据中敏感部分(如身份证、电话号码等)进行脱敏再供用户使用。只需要脱敏少量数据供页面呈现便可(这个呈现主要是给用户看样例数据,便于用户确定是否需要订阅资料)。为了防止请求被非法模仿,因而编写了一个访问Ip 鉴权类,也就是设置了访问ip白名单,只有在白名单上的ip才可以访问接口。具体实现见如下链接:注:运用该方法脱敏后的数据将存在Hive
转载 2023-09-04 16:00:47
10阅读
针对数据:身份证,银行卡,手机号,mac地址,IMEI,车牌号,邮箱select查询数据脱敏处理步骤: 1、平台数据每次插入完成后,数据抽样,对每个字段的内容进行识别,判断为敏感内容则进行打标。 2、解析该sql的物理计划,根据物理计划判断select的字段是否涉及到敏感信息。ps:解析sql物理计划是因为select的字段可能是concat(字段1,字段2)之类的复杂计算结果,甚至可能字段来自子
转载 2023-09-05 22:51:31
19阅读
原标题:数据脱敏:你能看到的不一定是你想看到的文 | 阳方“本文告诉你数据是如何被安全地使用的。”当今社会是一个信息爆炸的社会,各种信息以数据的形式充斥着我们生活的各个角落,比如在移动营业厅,能看到用户的话单数据;在医院,存放着病人的身份及病情数据;在各个企业,都有自己内部人事和财务数据......如此等等。显而易见,数据对一个人、一个企业或大至一个社会都如此重要,数据中可能包含一些非常敏感的信息
# Hive 脱敏技术的科普介绍 随着大数据技术的迅猛发展,数据隐私和数据安全的问题日益突出。尤其是在数据分析和数据挖掘过程中,如何保护个人隐私数据成为了一个亟待解决的问题。本文将对 Hive 脱敏技术进行深入的探讨,提供代码示例,并使用类图和甘特图以帮助理解相关内容。 ## 什么是 Hive 脱敏Hive 是一个基于 Hadoop 的数据仓库工具,提供了数据的存储、查询和处理。而数据脱
原创 2024-08-15 07:31:39
74阅读
本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger在Hive中进行行过滤及列脱敏,行级别的过滤相当于一个强制性的where子句,例如在订单表中,员工仅被允许查看自己所在地区的订单,其他区域的无法查看。列脱敏可以对某些敏感信息的列进行数据屏蔽,例如身份证号可以屏蔽中间的八位。测试环境1.操作系统Redhat7.62.CDP DC7.0.33.集群已启用Kerberos4.使用root
转载 2023-10-15 08:35:34
291阅读
Hive概述        Apache Hive是构建在Hadoop之上的数据仓库,支持通过SQL接口查询分析存储在Hadoop中的数据。        在Hive出现之前,数据分析人员需要编写MapReduce作业分析Hadoop中的数据,这种方
数据脱敏函数hive有专门的脱敏函数供我们使用,就是mask()函数,返回值是string类型,默认需要脱敏的数据中大写字母就自动转换为X,小写字母就自动转换为x,数字就自动转换为n,也可通过mask()函数的参数来自定义转换格式。注意:入参也必须是string类型才不会有隐藏bugselect mask(要加密字段) from 表名 -- 输出默认脱敏后的
转载 2023-08-30 12:15:51
736阅读
在某些特殊情况下,需要对原始数据在展示的时候就行脱敏处理。例如,员工姓名、客户姓名、联系方式、身份证号等等。在Wyn Enterprise当中,可以通过函数和字符串截取组合,来对敏感信息进行处理。核心:字符串截取函数的表达式写法。例如:对订单信息中的客户联系人、联系电话进行特殊处理。联系人显示为:张**,电话显示为:(029)****2291,这样,对外提供脱敏之后的报表或仪表板。对内可以查看原始
转载 2023-07-14 14:41:05
527阅读
# Hive姓名脱敏 在数据处理过程中,我们有时需要对敏感信息进行脱敏处理,以保护用户的隐私。在Hive中,对姓名进行脱敏处理是一种常见的操作。本文将介绍如何在Hive中对姓名进行脱敏处理,并给出相应的代码示例。 ## 什么是姓名脱敏 姓名脱敏是指将姓名中的部分信息替换为其他信息,以隐藏真实姓名。常见的姓名脱敏方式包括使用首字母代替真实姓名、将姓名中的某些字符替换为特定字符等。 ## Hi
原创 2024-02-21 06:18:25
234阅读
在当今数据安全与隐私保护日益重要的背景下,企业在使用数据时常常面临着“姓名脱敏”的需求,尤其是在使用Hive等数据处理平台时实现脱敏,成为了许多企业的技术任务。本系列文章将会详细探讨 Hive 姓名脱敏的各个环节,包括协议背景、抓包方法、报文结构、交互过程、工具链集成以及多协议对比等,逐步深入理解这个技术过程。 ```mermaid timeline title Hive 脱敏协议发展时
原创 5月前
27阅读
目录1.excel1.1.excel-设置excel数据分级显示,按组隐藏1.2.excel-将Excel表格中的全部内容截图1.3.excel-两个数据透视表利用切片器进行数据联动1.4.excel-只复制可见单元格1.5.excel-把两个单元格的内容合并在一起1.6.excel-有3行不一样的内容,自动向下填充1.7.excel-手机号脱敏1.8.excel-删除EXCEL其他数据源链接1
# Hive SQL 脱敏技术详解 在当今数据驱动的世界中,数据安全和隐私保护变得尤为重要。特别是在处理用户敏感信息(如姓名、身份证号、手机号等)时,数据脱敏技术成为了一项关键的实践。本文将探讨Hive SQL中的数据脱敏技术,以及如何通过代码示例实现这一目标。 ## 什么是数据脱敏? 数据脱敏是指将敏感数据转换为不易识别的形式,以便在确保数据分析和使用的同时,保护用户隐私。脱敏操作通常包括
原创 2024-08-25 06:24:09
137阅读
在信息技术领域,数据脱敏成为了一个越来越重要的话题,尤其是在使用Hive进行大数据处理时。数据脱敏的目的是保护敏感数据,确保符合隐私法规。在这篇博文中,我将详细描述如何有效实施Hive数据脱敏的过程,包括备份策略、恢复流程、灾难场景、工具链集成、日志分析和扩展阅读。 ## 备份策略 在进行数据脱敏之前,确保有一个可靠的备份策略是至关重要的。下面是备份周期计划的甘特图,显示在特定时间内进行的备份
原创 5月前
20阅读
# Hive数据脱敏实现指南 在现代的数据分析与处理过程中,数据脱敏是一个非常重要的环节。数据脱敏是指隐藏或修改敏感数据,以保护个人隐私。在本篇文章中,我将为你详细介绍如何在 Apache Hive 中实现数据脱敏。 ## 流程概述 整个数据脱敏的流程可以概括为以下几个步骤: | 步骤 | 描述 | |------------|----
原创 2024-10-17 10:51:48
53阅读
# Hive 中文脱敏实现指南 ## 一、流程概述 在进行 Hive 中文脱敏时,我们通常需要经过以下步骤。请参考下表以了解整个流程的关键步骤: | 步骤 | 描述 | 代码示例 | |------|------------------------------|---------
原创 2024-10-12 04:23:53
65阅读
一、Hive练习1.分区表我们有这样的一组数据:6,APPLE,北京,352,APPLE,上海,47数据脱敏,将原来的真实数据中敏感的信息进行模糊化,或者部分数据直接删除。id-》uuid-》变成了自动增长手机型号-》具体到什么品牌什么型号-》只保留了手机品牌城市-》 国-县-市-区(数字表示)-》只保留城市年龄-》身份证号码-》经过脱敏后,转换为年龄继续脱敏,删除部分数据,去除字段 。。。。。数
如果循环并用hive解决:可选UDF+explode(行转列) 或者 Spark rdd SQLUDF:一进一出 UDAF:聚集函数,多进一出,类似于:count/max/min UDTF:一进多出,如explore()、posexplode(),UDTF函数的时候只允许一个字段UDF脱敏1.pom文件<?xml version="1.0" encoding="UTF-8"?> &lt
转载 2023-09-02 10:55:07
111阅读
数据脱敏(Data Masking)数据脱敏也叫数据的去隐私化,在给定脱敏规则和策略的情况下,对敏感数据比如 手机号、银行卡号 等信息,进行转换或者修改的一种技术手段,防止敏感数据直接在不可靠的环境下使用。数据脱敏又分为静态数据脱敏(SDM)和 动态数据脱敏(DDM):SDM适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景。DDM一般用在生产环境,访问敏感数据时实时进行脱敏
转载 2023-07-18 11:39:13
164阅读
1 简介对于什么是数据脱敏,以下解释来自百度百科数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。在大数据环境下隐私保护的需求越来越频繁的被提及,对于一些敏感的信息,市面上很多应用都有一些脱敏的处理
转载 2023-09-18 03:33:15
208阅读
作者 | 苏星开,云和恩墨南区交付技术顾问,曾服务过通信、能源生产、金融等行业客户,擅长 SQL 审核和优化,DataGuard 容灾等。  概述 这里主要介绍两种操作简易的加密脱密函数,可能也是大家都比较常用。一个是内部 translate 函数,另外一个是利用 md5 算法创建的自定义函数。介绍这两个加密方法,主要还是在对一些业务数据做脱敏有这样的要求:1、脱敏字段全部内容加
转载 2024-04-12 21:16:49
76阅读
  • 1
  • 2
  • 3
  • 4
  • 5