目录
1、需求
2、Demo结构图及数据
3、创建Hive表加载数据
4、创建Hive的UDF函数及结果展示
1、需求:
进行公司需要做数据抽取工作,其中需要通过hive的UDF函数进行数据脱敏
demo下载路径:https://download.csdn.net/download/silentwolfyh/10939631
2、Demo结构图及数据
数据及操作步骤在doc\data中,Maven中有配置依赖和Jar包名称,只要install就可以打包。
#数据
1|61234522222000654321|18613718137|abc@163.com|010381199909183217
2|51234522222000654322|18613718126|abc@163.com|020381199909183216
3|41234522222000654323|18613718125|abc@163.com|030381199909183215
4|31234522222000654324|18613718124|abc@163.com|040381199909183214
5|21234522222000654325|18613718123|abc@163.com|050381199909183213
#创建hive表
create table IF NOT EXISTS user
(
id string,
bankNum string,
phoneNum string,
email string,
id_num string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
stored as textfile;
#加载数据
load data local inpath '/home/yuhui1/user.txt' into table user;
Loading data to table stage.user
#创建函数
CREATE FUNCTION stage.ID_Number AS 'com.hive.udf.ID_Number' using jar 'hdfs://nameservice1/user/hive/udf/ID_Number-jar-with-dependencies.jar';
#查询
select ID_Number(phoneNum) from user;
3、创建Hive表加载数据
将数据放入本地’/home/yuhui1/user.txt’
#加载数据
load data local inpath '/home/yuhui1/user.txt' into table user;
Loading data to table stage.user
将ID_Number-jar-with-dependencies.jar上传到HDFS上面,其中【nameservice1】是hdfs的NameNode Nameservice
#创建函数
CREATE FUNCTION stage.ID_Number AS 'com.hive.udf.ID_Number' using jar 'hdfs://nameservice1/user/hive/udf/ID_Number-jar-with-dependencies.jar';
4、创建Hive的UDF函数及结果展示
备注:stage是hive的数据库名称
转载:https://blog.csdn.net/silentwolfyh/article/details/86659134
查看评论