执行语句前:
先配置以下条件
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set spark.executor.instances=6;
set spark.serializer=org.apache.spark.serializer.KryoSerializer;
set hive.exec.max.dynamic.partitions.pernode=99999;  
set hive.exec.max.dynamic.partitions=999999;
set hive.exec.max.created.files=999999;
set hive.map.aggr=true;
set hive.groupby.skewindata=true;
set hive.log.explain.output=false;set hive.map.aggr= false;
 
一、 小区均价表
1.1、创建小区均价表
 CREATE TABLE `lj_city_cmnt_price_temp`(
 `pk_id` int COMMENT '唯一id', 
 `lj_prov` string COMMENT '省', 
 `lj_city` string COMMENT '市_原始', 
 `lj_area_orig` string COMMENT '行政区县_原始', 
 `lj_comm_id_orig` string COMMENT '小区ID', 
 `lj_comm_name_orig` string COMMENT '小区名_原始', 
 `lj_alias_name_orig` string COMMENT '小区别名_原始', 
 `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
   `get_method` string COMMENT '获取方式', 
   `lj_cnmt` string COMMENT '链家小区名', 
   `lj_cnmt_url` string COMMENT '链家小区RUL', 
   `lj_cnmt_per_pr` string COMMENT '链家小区挂牌价', 
   `lj_cmnt_area` string, 
   `lj_cmnt_loc` string, 
   `lj_cmnt_crawl_tm` string COMMENT '链家房源爬取时间', 
   `batch_id` string COMMENT '批次号')
 ROW FORMAT SERDE 
   'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
 WITH SERDEPROPERTIES ( 
   'field.delim'=',',  'serialization.format'=',')STORED AS TEXTFILE; 1.2 创建小区均价分区表CREATE TABLE `ods_lj_cmnt_pr_crawl`(
  `pk_id` string COMMENT '唯一id', 
  `lj_area_orig` string COMMENT '行政区县_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
  `get_method` string COMMENT '获取方式', 
  `lj_cnmt` string COMMENT '链家小区名', 
    `lj_cnmt_url` string COMMENT '链家URL', 
    `lj_cnmt_per_pr` string COMMENT '链家小区挂牌价', 
    `lj_cmnt_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `batch_id` string COMMENT '批次号', 
    `lj_cmnt_area` string COMMENT '链家小区区域', 
    `lj_cmnt_loc` string COMMENT '链家小区大致位置')
  PARTITIONED BY ( 
    `lj_prov` string COMMENT '省', 
    `lj_city_orig` string COMMENT '市_原始')
row format delimited fields terminated by ","
stored as textfile; 
1.3 插入数据
 insert into ods_data_collection.lj_city_cmnt_price_temp select uuid(),
lj_area_orig ,lj_comm_id_orig ,lj_comm_name_orig ,lj_alias_name_orig ,lj_comm_addr_orig ,
get_method ,lj_cnmt ,lj_cnmt_url ,lj_cnmt_per_pr ,lj_cmnt_crawl_tm ,batch_id ,lj_cmnt_area ,
lj_cmnt_loc ,lj_prov ,lj_city
 from test_spider.ods_lj_cmnt_pr_crawl where batch_id='202101101000'; 
二、小区详情表
2.1 创建小区详情表
CREATE TABLE `ods_lj_cmnt_detail_temp`(
  `pk_id` int COMMENT '唯一主键', 
  `lj_province` string COMMENT '省', 
  `lj_city_orig` string COMMENT '\t市_原始\t', 
  `lj_area_orig` string COMMENT '\t区_原始\t', 
  `lj_comm_id_orig` string COMMENT '\t小区ID_原始\t', 
  `lj_comm_name_orig` string COMMENT '\t小区名_原始\t', 
  `lj_alias_name_orig` string COMMENT '\t小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '\t小区地址_原始', 
    `get_method` string COMMENT '\t获取方式', 
    `lj_dist` string COMMENT '\t行政区', 
    `lj_biz_dist` string COMMENT '\t所属商圈', 
    `lj_cmnt` string COMMENT '\t小区名', 
    `lj_cmnt_url` string COMMENT '\t链家小区URL地址\t', 
    `lj_cmnt_sub_title` string COMMENT '\t链家小区标题(小)', 
    `lj_cmnt_list_pr` string COMMENT '\t链家小区挂牌单价\t', 
    `lj_cmnt_bld_year` string COMMENT '\t链家小区建筑年代\t', 
    `lj_cmnt_bld_stru` string COMMENT '\t链家小区建筑类型', 
    `lj_cmnt_hoa_fee` string COMMENT '\t链家小区物业费用', 
    `lj_cmnt_hoa_nm` string COMMENT '\t链家小区物业公司', 
    `lj_cmnt_dev_nm` string COMMENT '\t链家小区开发商\t', 
    `lj_cmnt_bld_ttl` string COMMENT '\t链家小区楼栋总数', 
    `lj_cmnt_hse_ttl` string COMMENT '\t链家小区房屋总数', 
    `lj_cmnt_crawl_tm` timestamp COMMENT '\t链家房源爬取时间', 
    `lj_cmnt_loc` string COMMENT '\t链家房源位置',`LJ_CMNT_SELL` string COMMENT '链家房源在售数量', 
    `batch_id` string COMMENT '\t批次号')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 2.2 创建小区详情分区表CREATE TABLE `ods_lj_cmnt_detail_crawl`(
  `pk_id` string COMMENT '唯一主键', 
  `lj_area_orig` string COMMENT '区_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID_原始', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
  `get_method` string COMMENT '获取方式', 
  `lj_dist` string COMMENT '行政区', 
    `lj_biz_dist` string COMMENT '所属商圈', 
    `lj_cmnt` string COMMENT '小区名', 
    `lj_cmnt_url` string COMMENT '链家小区URL地址', 
    `lj_cmnt_sub_title` string COMMENT '链家小区标题(小)', 
    `lj_cmnt_list_pr` string COMMENT '链家小区挂牌单价', 
    `lj_cmnt_bld_year` string COMMENT '链家小区建筑年代', 
    `lj_cmnt_bld_stru` string COMMENT '链家小区建筑类型', 
    `lj_cmnt_hoa_fee` string COMMENT '链家小区物业费用', 
    `lj_cmnt_hoa_nm` string COMMENT '链家小区物业公司', 
    `lj_cmnt_dev_nm` string COMMENT '链家小区开发商', 
    `lj_cmnt_bld_ttl` string COMMENT '链家小区楼栋总数', 
    `lj_cmnt_hse_ttl` string COMMENT '链家小区房屋总数', 
    `lj_cmnt_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `lj_cmnt_loc` string COMMENT '链家房源位置',`LJ_CMNT_SELL` string COMMENT '链家房源在售数量', 
    `batch_id` string COMMENT '批次号')
  PARTITIONED BY ( 
    `lj_prov` string COMMENT '省', 
    `lj_city_orig` string COMMENT '市_原始')
row format delimited fields terminated by ","
stored as textfile;2.3 插入数据
insert into ods_data_collection.ods_lj_cmnt_detail_crawl select uuid(),
lj_area_orig ,lj_comm_id_orig ,lj_comm_name_orig ,lj_alias_name_orig ,lj_comm_addr_orig ,get_method ,lj_dist ,lj_biz_dist ,
lj_cmnt ,lj_cmnt_url ,lj_cmnt_sub_title ,lj_cmnt_list_pr ,lj_cmnt_bld_year ,lj_cmnt_bld_stru ,lj_cmnt_hoa_fee ,lj_cmnt_hoa_nm ,lj_cmnt_dev_nm ,
lj_cmnt_bld_ttl ,lj_cmnt_hse_ttl ,lj_cmnt_crawl_tm ,lj_cmnt_loc ,lj_cmnt_sell ,batch_id ,lj_province ,lj_city_orig 
 from test_spider.ods_lj_cmnt_detail_temp where batch_id='202101101000';#创建新楼盘小区详情表
create table ods_lj_new_cmnt 
(
PK_ID string comment                 '唯一主键',
LJ_PROVINCE string comment           '省',
LJ_CITY_ORIG string comment          '市_原始',
LJ_AREA_ORIG string comment          '区_原始',
LJ_COMM_ID_ORIG string comment       '小区ID_原始',
LJ_COMM_NAME_ORIG string comment     '小区名_原始',
LJ_ALIAS_NAME_ORIG string comment    '小区别名_原始',
LJ_COMM_ADDR_ORIG string comment     '小区地址_原始',
GET_METHOD string comment            '获取方式',
LJ_DIST string comment               '行政区',
LJ_BIZ_DIST string comment           '所属商圈',
LJ_CMNT string comment               '小区名',
LJ_CMNT_URL string comment           '小区URL地址',
LJ_CMNT_TYPE string comment          '小区类型',
LJ_CMNT_SALE_STU string comment      '销售状态',
LJ_CMNT_TAG string comment           '小区标签',
LJ_CMNT_ROOM_NUM string comment      '小区户型',
LJ_CMNT_ROOM_AREA string comment     '小区面积',
LJ_CMNT_LIST_PR string comment       '小区挂牌均价',
LJ_CMNT_ROOM_PR string comment       '小区房屋总价',
LJ_STA_SPC_TAG string comment        '状态特殊标签',
LJ_PRO_LOC string comment            '项目地址',
LJ_ROOM_INFO string comment          '户型信息',
LJ_CMNT_CRAWL_TM string comment      '房源爬取时间',
BATCH_ID string comment              '批次号'
) row format delimited fields terminated by ","
stored as textfile; 
# 创建新楼盘小区详情分区表create table ods_lj_new_cmnt_fq
(
PK_ID string comment '唯一主键',
LJ_CITY_ORIG string comment '市_原始',
LJ_AREA_ORIG string comment '区_原始',
LJ_COMM_ID_ORIG string comment '小区ID_原始',
LJ_COMM_NAME_ORIG string comment '小区名_原始',
LJ_ALIAS_NAME_ORIG string comment '小区别名_原始',
LJ_COMM_ADDR_ORIG string comment '小区地址_原始',
GET_METHOD string comment '获取方式',
LJ_DIST string comment '行政区',
LJ_BIZ_DIST string comment '所属商圈',
LJ_CMNT string comment '小区名',
LJ_CMNT_URL string comment '小区URL地址',
LJ_CMNT_TYPE string comment '小区类型',
LJ_CMNT_SALE_STU string comment '销售状态',
LJ_CMNT_TAG string comment '小区标签',
LJ_CMNT_ROOM_NUM string comment '小区户型',
LJ_CMNT_ROOM_AREA string comment '小区面积',
LJ_CMNT_LIST_PR string comment '小区挂牌均价',
LJ_CMNT_ROOM_PR string comment '小区房屋总价',
LJ_STA_SPC_TAG string comment '状态特殊标签',
LJ_PRO_LOC string comment '项目地址',
LJ_ROOM_INFO string comment '户型信息',
LJ_CMNT_CRAWL_TM string comment '房源爬取时间'
)partitioned by (BATCH_ID string comment '批次号'LJ_PROVINCE string comment '省',
LJ_CITY_ORIG string comment '市_原始')
row format delimited fields terminated by ","
stored as textfile;
 # 插入数据
insert into ods_lj_new_cmnt_crl 
select uuid(),
LJ_AREA_ORIG,
LJ_COMM_ID_ORIG,
LJ_COMM_NAME_ORIG,
LJ_ALIAS_NAME_ORIG,
LJ_COMM_ADDR_ORIG,
GET_METHOD,
LJ_DIST,
LJ_BIZ_DIST,
LJ_CMNT,
LJ_CMNT_URL,
LJ_CMNT_TYPE,
LJ_CMNT_SALE_STU,
LJ_CMNT_TAG,
LJ_CMNT_ROOM_NUM,
LJ_CMNT_ROOM_AREA,
LJ_CMNT_LIST_PR,
LJ_CMNT_ROOM_PR,
LJ_STA_SPC_TAG,
LJ_PRO_LOC,
LJ_ROOM_INFO,
LJ_CMNT_CRAWL_TM,
BATCH_ID,
LJ_PROVINCE,
LJ_CITY_ORIG from crl_test_db.ods_lj_new_cmnt; 
三、挂牌均价表
3.1 创建挂牌均价表
CREATE TABLE `ods_lj_hse_list_pr_temp`(
  `id` string COMMENT '唯一主键', 
  `lj_prov` string COMMENT '省', 
  `lj_city_orig` string COMMENT '市_原始', 
  `lj_area_orig` string COMMENT '行政区县_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
    `get_method` string COMMENT '获取方式', 
    `lj_title` string COMMENT '链家房源标题', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_list_pr` string COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` string COMMENT '链家房源挂牌单价', 
    `lj_hse_type` string COMMENT '链家房源户型', 
    `lj_hse_area` string COMMENT '链家房源面积', 
    `lj_hse_twd` string COMMENT '链家房源朝向', 
    `lj_hse_deg_dect` string COMMENT '链家房源装修程度', 
    `lj_hse_flr_type` string COMMENT '链家房源楼层', 
    `lj_hse_ttl_flr` string COMMENT '链家房源总楼层', 
    `lj_hse_bld_year` string COMMENT '链家房源建成年份', 
    `lj_hse_bld_stru` string COMMENT '链家房源建筑结构', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `lj_hse_loc` string COMMENT '链家房源位置', 
    `batch_id` string COMMENT '批次号')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 
3.3 创建挂牌均价分区表CREATE TABLE `ods_lj_hse_list_pr_crawl`(
  `pk_id` string COMMENT '唯一主键', 
  `lj_area_orig` string COMMENT '行政区县_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
  `get_method` string COMMENT '获取方式', 
  `lj_title` string COMMENT '链家房源标题', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_list_pr` string COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` string COMMENT '链家房源挂牌单价', 
    `lj_hse_type` string COMMENT '链家房源户型', 
    `lj_hse_area` string COMMENT '链家房源面积', 
    `lj_hse_twd` string COMMENT '链家房源朝向', 
    `lj_hse_deg_dect` string COMMENT '链家房源装修程度', 
    `lj_hse_flr_type` string COMMENT '链家房源楼层', 
    `lj_hse_ttl_flr` string COMMENT '链家房源总楼层', 
    `lj_hse_bld_year` string COMMENT '链家房源建成年份', 
    `lj_hse_bld_stru` string COMMENT '链家房源建筑结构', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `lj_hse_loc` string COMMENT '链家房源位置', 
    `batch_id` string COMMENT '批次号')
  PARTITIONED BY ( 
    `lj_prov` string COMMENT '省', 
    `lj_city_orig` string COMMENT '市_原始')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 3.3 插入数据
insert into ods_lj_hse_list_pr_crawl_temp
 select uuid(),LJ_AREA_ORIG,LJ_COMM_ID_ORIG,LJ_COMM_NAME_ORIG,LJ_ALIAS_NAME_ORIG,LJ_COMM_ADDR_ORIG,GET_METHOD,
LJ_TITLE,LJ_HSE_URL,LJ_HSE_LIST_PR,LJ_HSE_SQ_LIST_PR,LJ_HSE_TYPE,LJ_HSE_AREA,LJ_HSE_TWD,LJ_HSE_DEG_DECT,
LJ_HSE_FLR_TYPE,LJ_HSE_TTL_FLR,LJ_HSE_BLD_YEAR,LJ_HSE_BLD_STRU,LJ_HSE_CRAWL_TM,LJ_HSE_LOC,BATCH_ID,
LJ_PROV,LJ_CITY_ORIG
 from ods_lj_hse_list_pr_crawl; 
四、挂牌详情表
4.1 创建挂牌详情表
CREATE TABLE `ods_lj_hse_detail_temp`(
  `pk_id` int COMMENT '唯一主键', 
  `lj_province` string COMMENT '省', 
  `lj_city_orig` string COMMENT '市', 
  `lj_area_orig` string COMMENT '区', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名', 
  `lj_comm_addr_orig` string COMMENT '小区地址', 
    `lj_dist` string COMMENT '行政区', 
    `lj_biz_dist` string COMMENT '所属商圈', 
    `lj_cmnt` string COMMENT '小区名', 
    `lj_title` string COMMENT '链家房源标题(大)', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_sub_title` string COMMENT '链家房源标题(小)', 
    `lj_hse_list_pr` string COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` string COMMENT '链家房源挂牌单价', 
    `lj_hse_area` string COMMENT '链家房源面积', 
    `lj_hse_bld_year` string COMMENT '链家房源建成年份', 
    `lj_cmnt_nm` string COMMENT '小区名称', 
    `lj_cmnt_dtl_url` string COMMENT '小区详情链接', 
    `lj_cmnt_loc_area` string COMMENT '所在区域_区', 
    `lj_cmnt_loc_add` string COMMENT '所在区域_地点', 
    `lj_hse_type` string COMMENT '基本信息-基本属性-房屋户型', 
    `lj_hse_blg_are` string COMMENT '基本信息-基本属性-建筑面积', 
    `lj_hse_ubl_are` string COMMENT '基本信息-基本属性-套内面积', 
    `lj_hse_twd` string COMMENT '基本信息-基本属性-房屋朝向', 
    `lj_hse_deg_dect` string COMMENT '基本信息-基本属性-装修情况', 
    `lj_hse_is_elvt` string COMMENT '基本信息-基本属性-配备电梯', 
    `lj_hse_flr` string COMMENT '基本信息-基本属性-所在楼层', 
    `lj_hse_ttl_flr` string COMMENT '基本信息-基本属性-总楼层', 
    `lj_hse_ttl_type` string COMMENT '基本信息-基本属性-户型结构', 
    `lj_hse_bld_type` string COMMENT '基本信息-基本属性-建筑类型', 
    `lj_hse_bld_stru` string COMMENT '基本信息-基本属性-建筑结构', 
    `lj_elvt_hse_rto` string COMMENT '基本信息-基本属性-梯户比例', 
    `lj_list_pr_tm` string COMMENT '基本信息-交易属性-挂牌时间', 
    `lj_last_trans_tm` string COMMENT '基本信息-交易属性-上次交易', 
    `lj_hse_year_per` string COMMENT '基本信息-交易属性-房屋年限', 
    `lj_hse_mrge` string COMMENT '基本信息-交易属性-抵押信息', 
    `lj_hse_trans_osp` string COMMENT '基本信息-交易属性-交易属性', 
    `lj_hse_purp` string COMMENT '基本信息-交易属性-房屋用途', 
    `lj_hse_prop_blg` string COMMENT '基本信息-交易属性-产权所属', 
    `lj_hse_feat_tag` string COMMENT '房源特色-房源标签', 
    `lj_core_sell_pt` string COMMENT '房源特色-核心卖点', 
    `lj_cmnt_info` string COMMENT '房源特色-小区介绍', 
    `lj_cmnt_surd_fac` string COMMENT '房源特色-周边配套', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `lj_hse_loc` string COMMENT '链家房源位置', 
    `batch_id` string COMMENT '批次号')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 4.2 创建挂牌详情分区表CREATE TABLE `ods_lj_hse_detail_crawl`(
  `pk_id` string COMMENT '唯一主键 ', 
  `lj_area_orig` string COMMENT '区', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名', 
  `lj_comm_addr_orig` string COMMENT '小区地址', 
  `lj_dist` string COMMENT '行政区', 
  `lj_biz_dist` string COMMENT '所属商圈', 
    `lj_cmnt` string COMMENT '小区名', 
    `lj_title` string COMMENT '链家房源标题(大)', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_sub_title` string COMMENT '链家房源标题(小)', 
    `lj_hse_list_pr` string COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` string COMMENT '链家房源挂牌单价', 
    `lj_hse_area` string COMMENT '链家房源面积', 
    `lj_hse_bld_year` string COMMENT '链家房源建成年份', 
    `lj_cmnt_nm` string COMMENT '小区名称', 
    `lj_cmnt_dtl_url` string COMMENT '小区详情链接', 
    `lj_cmnt_loc_area` string COMMENT '所在区域_区', 
    `lj_cmnt_loc_add` string COMMENT '所在区域_地点', 
    `lj_hse_type` string COMMENT '基本信息-基本属性-房屋户型', 
    `lj_hse_blg_are` string COMMENT '基本信息-基本属性-建筑面积', 
    `lj_hse_ubl_are` string COMMENT '基本信息-基本属性-套内面积', 
    `lj_hse_twd` string COMMENT '基本信息-基本属性-房屋朝向', 
    `lj_hse_deg_dect` string COMMENT '基本信息-基本属性-装修情况', 
    `lj_hse_is_elvt` string COMMENT '基本信息-基本属性-配备电梯', 
    `lj_hse_flr` string COMMENT '基本信息-基本属性-所在楼层', 
    `lj_hse_ttl_flr` string COMMENT '基本信息-基本属性-总楼层', 
    `lj_hse_ttl_type` string COMMENT '基本信息-基本属性-户型结构', 
    `lj_hse_bld_type` string COMMENT '基本信息-基本属性-建筑类型', 
    `lj_hse_bld_stru` string COMMENT '基本信息-基本属性-建筑结构', 
    `lj_elvt_hse_rto` string COMMENT '基本信息-基本属性-梯户比例', 
    `lj_list_pr_tm` string COMMENT '基本信息-交易属性-挂牌时间', 
    `lj_last_trans_tm` string COMMENT '基本信息-交易属性-上次交易', 
    `lj_hse_year_per` string COMMENT '基本信息-交易属性-房屋年限', 
    `lj_hse_mrge` string COMMENT '基本信息-交易属性-抵押信息', 
    `lj_hse_trans_osp` string COMMENT '基本信息-交易属性-交易属性', 
    `lj_hse_purp` string COMMENT '基本信息-交易属性-房屋用途', 
    `lj_hse_prop_blg` string COMMENT '基本信息-交易属性-产权所属', 
    `lj_hse_feat_tag` string COMMENT '房源特色-房源标签', 
    `lj_core_sell_pt` string COMMENT '房源特色-核心卖点', 
    `lj_cmnt_info` string COMMENT '房源特色-小区介绍', 
    `lj_cmnt_surd_fac` string COMMENT '房源特色-周边配套', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `lj_hse_loc` string COMMENT '链家房源位置', 
    `batch_id` string COMMENT '批次号')
  PARTITIONED BY ( 
    `lj_province` string COMMENT '省', 
    `lj_city_orig` string COMMENT '市')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE;4.3 插入数据
insert into ods_lj_hse_detail_crawl_temp select uuid(),LJ_AREA_ORIG,LJ_COMM_ID_ORIG,LJ_COMM_NAME_ORIG,LJ_ALIAS_NAME_ORIG,LJ_COMM_ADDR_ORIG,LJ_DIST,LJ_BIZ_DIST,LJ_CMNT,
LJ_TITLE,LJ_HSE_URL,LJ_HSE_SUB_TITLE,LJ_HSE_LIST_PR,LJ_HSE_SQ_LIST_PR,LJ_HSE_AREA,LJ_HSE_BLD_YEAR,LJ_CMNT_NM,LJ_CMNT_DTL_URL,
LJ_CMNT_LOC_AREA,LJ_CMNT_LOC_ADD,LJ_HSE_TYPE,LJ_HSE_BLG_ARE,LJ_HSE_UBL_ARE,LJ_HSE_TWD,LJ_HSE_DEG_DECT,LJ_HSE_IS_ELVT,LJ_HSE_FLR,
LJ_HSE_TTL_FLR,LJ_HSE_TTL_TYPE,LJ_HSE_BLD_TYPE,LJ_HSE_BLD_STRU,LJ_ELVT_HSE_RTO,LJ_LIST_PR_TM,LJ_LAST_TRANS_TM,LJ_HSE_YEAR_PER,
LJ_HSE_MRGE,LJ_HSE_TRANS_OSP,LJ_HSE_PURP,LJ_HSE_PROP_BLG,LJ_HSE_FEAT_TAG,LJ_CORE_SELL_PT,LJ_CMNT_INFO,LJ_CMNT_SURD_FAC,LJ_HSE_CRAWL_TM,
LJ_HSE_LOC,BATCH_ID,LJ_PROVINCE,LJ_CITY_ORIG
from ods_lj_hse_detail_crawl;五、成交价表
5.1 创建成交表
CREATE TABLE `ods_lj_hse_tran_pr_temp`(
  `pk_id` string COMMENT '唯一主键', 
  `lj_prov` string COMMENT '省', 
  `lj_city_orig` string COMMENT '市_原始', 
  `lj_area_orig` string COMMENT '行政区县_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
    `get_method` string COMMENT '获取方式', 
    `lj_title` string COMMENT '链家房源标题', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_list_pr` int COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` float COMMENT '链家房源挂牌单价', 
    `lj_hse_type` string COMMENT '链家房源户型', 
    `lj_hse_area` float COMMENT '链家房源面积', 
    `lj_hse_twd` string COMMENT '链家房源朝向', 
    `lj_hse_deg_dect` string COMMENT '链家房源装修程度', 
    `lj_hse_flr_type` string COMMENT '链家房源楼层', 
    `lj_hse_ttl_flr` int COMMENT '链家房源总楼层', 
    `lj_hse_bld_year` int COMMENT '链家房源建成年份', 
    `lj_hse_bld_stru` string COMMENT '链家房源建筑结构', 
    `lj_hse_trans_cycle` string COMMENT '链家房源成交周期', 
    `lj_hse_trans_pr` float COMMENT '链家房源成交价', 
    `lj_per_sq_trans_pr` float COMMENT '链家房源成交均价', 
    `lj_hse_trans_date` timestamp COMMENT '链家房源成交日期', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `batch_id` string COMMENT '批次号')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 5.2 创建成交分区表CREATE TABLE `ods_lj_hse_tran_pr_crawl`(
  `pk_id` string COMMENT '唯一主键', 
  `lj_area_orig` string COMMENT '行政区县_原始', 
  `lj_comm_id_orig` string COMMENT '小区ID', 
  `lj_comm_name_orig` string COMMENT '小区名_原始', 
  `lj_alias_name_orig` string COMMENT '小区别名_原始', 
  `lj_comm_addr_orig` string COMMENT '小区地址_原始', 
  `get_method` string COMMENT '获取方式', 
  `lj_title` string COMMENT '链家房源标题', 
    `lj_hse_url` string COMMENT '链家房源URL地址', 
    `lj_hse_list_pr` int COMMENT '链家房源挂牌价', 
    `lj_hse_sq_list_pr` float COMMENT '链家房源挂牌单价', 
    `lj_hse_type` string COMMENT '链家房源户型', 
    `lj_hse_area` float COMMENT '链家房源面积', 
    `lj_hse_twd` string COMMENT '链家房源朝向', 
    `lj_hse_deg_dect` string COMMENT '链家房源装修程度', 
    `lj_hse_flr_type` string COMMENT '链家房源楼层', 
    `lj_hse_ttl_flr` int COMMENT '链家房源总楼层', 
    `lj_hse_bld_year` int COMMENT '链家房源建成年份', 
    `lj_hse_bld_stru` string COMMENT '链家房源建筑结构', 
    `lj_hse_trans_cycle` string COMMENT '链家房源成交周期', 
    `lj_hse_trans_pr` float COMMENT '链家房源成交价', 
    `lj_per_sq_trans_pr` float COMMENT '链家房源成交均价', 
    `lj_hse_trans_date` timestamp COMMENT '链家房源成交日期', 
    `lj_hse_crawl_tm` timestamp COMMENT '链家房源爬取时间', 
    `batch_id` string COMMENT '批次号')
  PARTITIONED BY ( 
    `lj_prov` string COMMENT '省', 
    `lj_city_orig` string COMMENT '市_原始')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 5.3 插入数据
insert into ods_lj_hse_tran_pr_crawl select uuid(), lj_area_orig, lj_comm_id_orig, lj_comm_name_orig,
lj_alias_name_orig,
lj_comm_addr_orig, get_method, lj_title, lj_hse_url, lj_hse_list_pr, lj_hse_sq_list_pr, lj_hse_type, lj_hse_area, lj_hse_twd,
lj_hse_deg_dect, lj_hse_flr_type, lj_hse_ttl_flr, lj_hse_bld_year, lj_hse_bld_stru,lj_hse_trans_cycle ,lj_hse_trans_pr ,lj_per_sq_trans_pr,
lj_hse_trans_date, lj_hse_crawl_tm,batch_id,lj_prov,lj_city_orig
 from ods_lj_hse_tran_pr_temp;六、 商品房指数
6.1 创建指数表
CREATE TABLE `nation_house_data_temp`(
  `pk_id` string COMMENT '\t唯一ID', 
  `prov_id` int COMMENT '\t省ID', 
  `prov_name` string COMMENT '\t省', 
  `city_id` int COMMENT '\t城市ID', 
  `city_name` string COMMENT '\t城市', 
  `fixture_date` string COMMENT '\t成交日期', 
  `pi_year` string COMMENT '\t指数年份         ', 
  `pi_mon` int COMMENT '\t指数月份         ', 
    `value_index` float COMMENT '\t价格指数     ', 
    `pi_type` string COMMENT '\t指数类型         ', 
    `source_data` string COMMENT '\t数据来源     ', 
    `use_code` string COMMENT '\t用途         ', 
    `standard_year` int COMMENT '\t基准年份 ', 
    `create_time` timestamp COMMENT '\t创建时间 ', 
    `update_time` timestamp COMMENT '\t更新时间 ', 
    `creator` string COMMENT '\t创建人           ', 
    `modifier` string COMMENT '\t更新人       ', 
    `batch_id` string COMMENT '\t批次号       ')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 6.2 创建指数分区表CREATE TABLE `ods_nation_house_data`(
  `pk_id` string COMMENT '唯一ID', 
  `prov_id` int COMMENT '省ID', 
  `city_id` int COMMENT '城市ID', 
  `fixture_date` string COMMENT '成交日期', 
  `pi_year` int COMMENT '指数年份         ', 
  `pi_mon` int COMMENT '指数月份         ', 
  `value_index` float COMMENT '价格指数     ', 
  `pi_type` string COMMENT '指数类型         ', 
    `source_data` string COMMENT '数据来源     ', 
    `use_code` string COMMENT '用途         ', 
    `standard_year` int COMMENT '基准年份 ', 
    `create_time` timestamp COMMENT '创建时间 ', 
    `update_time` timestamp COMMENT '更新时间 ', 
    `creator` string COMMENT '创建人           ', 
    `modifier` string COMMENT '更新人       ', 
    `batch_id` string COMMENT '批次号       ')
  PARTITIONED BY ( 
    `prov_name` string COMMENT '省', 
    `city_name` string COMMENT '城市')
  ROW FORMAT SERDE 
    'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
  WITH SERDEPROPERTIES ( 
    'field.delim'=',', 
    'serialization.format'=',')STORED AS TEXTFILE; 
 
6.3 插入数据
pass
 
7.1 城市房产网小区详情表
create table ods_ch_cmnt_detail_temp (
PK_ID string comment '',
CH_PROVINCE string comment '',
CH_CITY_ORIG string comment '',
CH_AREA_ORIG string comment '',
CH_CMNT_ID_ORIG string comment '',
CH_CMNT_NAME_ORIG string comment '',
CH_ALIAS_NAME_ORIG string comment '',
CH_CMNT_ADDR_ORIG string comment '',
GET_METHOD string comment '',
CH_DIST string comment '',
CH_BIZ_DIST string comment '',
CH_CMNT string comment '',
CH_CMNT_URL string comment '',
CH_CMNT_SCORE string comment '',
CH_ENV_SCORE string comment '',
CH_CITY_SCORE string comment '',
CH_MAN_SCORE string comment '',
CH_BLD_SCORE string comment '',
CH_CMNT_BLD_YEAR string comment '',
CH_CMNT_PER_PR string comment '',
CH_CMNT_RENT string comment '',
CH_CMNT_BLD_STRU string comment '',
CH_CMNT_BLD_TYPE string comment '',
CH_HSE_STRU string comment '',
CH_CMNT_HOA_FEE string comment '',
CH_CMNT_HOA_NM string comment '',
CH_CMNT_DEV_NM string comment '',
CH_CMNT_HSE_TTL string comment '',
CH_CMNT_USE string comment '',
CH_CMNT_HOA_ADDR string comment '',
CH_GRN_RTO string comment '',
CH_VOL_RTO string comment '',
CH_CMNT_AREA string comment '',
CH_BLD_AREA string comment '',
CH_COM_DATE string comment '',
IS_AVL string comment '',
CRT_TM string comment '',
CRT_PSN string comment '',
UPT_TM string comment '',
PRICE_LIST string comment '',
RENT_LIST string comment '',
UPT_PSN string comment '',
CH_CMNT_CRAWL_TM string comment '',
BATCH_ID string comment '') ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',', 'serialization.format'=',')STORED AS TEXTFILE; 
7.2 城市房产网小区详情分区表create table ods_ch_cmnt_detail (
PK_ID string comment '唯一主键',
CH_AREA_ORIG string comment '区_原始',
CH_CMNT_ID_ORIG string comment '小区ID_原始',
CH_CMNT_NAME_ORIG string comment '小区名_原始',
CH_ALIAS_NAME_ORIG string comment '小区别名_原始',
CH_CMNT_ADDR_ORIG string comment '小区地址_原始',
GET_METHOD string comment '获取方式',
CH_DIST string comment '行政区',
CH_BIZ_DIST string comment '所属商圈',
CH_CMNT string comment '小区名',
CH_CMNT_URL string comment '小区URL地址',
CH_CMNT_SCORE string comment '小区评分',
CH_ENV_SCORE string comment '景观环境',
CH_CITY_SCORE string comment '城市配套',
CH_MAN_SCORE string comment '运营管理',
CH_BLD_SCORE string comment '规划建设',
CH_CMNT_BLD_YEAR string comment '链家小区建筑年代',
CH_CMNT_PER_PR string comment '平均房价',
CH_CMNT_RENT string comment '平均租金',
CH_CMNT_BLD_STRU string comment '建筑结构',
CH_CMNT_BLD_TYPE string comment '建筑类型',
CH_HSE_STRU string comment '房屋类型',
CH_CMNT_HOA_FEE string comment '物业费用',
CH_CMNT_HOA_NM string comment '物业公司',
CH_CMNT_DEV_NM string comment '开发商',
CH_CMNT_HSE_TTL string comment '房屋总数',
CH_CMNT_USE string comment '用途',
CH_CMNT_HOA_ADDR string comment '物业地址',
CH_GRN_RTO string comment '绿化率',
CH_VOL_RTO string comment '容积率',
CH_CMNT_AREA string comment '占地面积',
CH_BLD_AREA string comment '建筑面积',
CH_COM_DATE string comment '竣工时间',
IS_AVL string comment '是否有效',
CRT_TM string comment '创建时间',
CRT_PSN string comment '创建人',
UPT_TM string comment '更新时间',
PRICE_LIST string comment '二手房价格走势信息',
RENT_LIST string comment '租金价格走势信息',
UPT_PSN string comment '更新人',
CH_CMNT_CRAWL_TM string comment '爬取时间',
BATCH_ID string comment '批次号')
PARTITIONED BY (
`CH_PROVINCE` string COMMENT '省',
`CH_CITY_ORIG` string COMMENT '市_原始')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE;7.3 插入数据
 
8.1 贝壳房价走势表
create table bk_cmnt_pr(
PK_ID string comment '唯一ID',
BK_PROV string comment '省',
BK_CITY string comment '市',
BK_AREA string comment '区',
BK_CMNT_NM string comment '小区名',
BK_TM string comment '贝壳日期',
BK_PR string comment '贝壳价格',
PR_CAT string comment '价格类型',
LJ_CMNT_URL string comment '链家URL',
BK_CMNT_URL string comment '贝壳URL',
LJ_CMNT_ID string comment '链家小区ID',
UPT_TM timestamp comment '更新时间',
CRT_TM timestamp comment '创建时间',
UPT_PSN string comment '更新人',
CRT_PSN string comment '创建人',
BATCH_ID string comment '批次号'
)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',', 'serialization.format'=',')STORED AS TEXTFILE;8.2 贝壳房价走势分区表pass
8.3 插入分区表数据insert into ods_bk_cmnt_pr 
select uuid(),
BK_AREA,
BK_CMNT_NM,
BK_TM,
BK_PR,
PR_CAT,
LJ_CMNT_URL,
BK_CMNT_URL,
LJ_CMNT_ID,
UPT_TM,
CRT_TM,
UPT_PSN,
CRT_PSN,
BATCH_ID,
BK_PROV,
BK_CITY
from 
bk_cmnt_pr; 
9.1 创建城市市场指导价分区表:CREATE TABLE `ODS_EST_CITY_MKT_PR`(
`pk_id` string COMMENT '唯一id',
`est_dist` string COMMENT '行政区县始',
`est_rd` string COMMENT '街道',
`est_cmnt_nm` string COMMENT '小区名',
`cmnt_pr` string COMMENT '指导价',
`batch_id` string COMMENT '批次号',
`IS_AVL` string COMMENT '是否有效',
`CRT_TM` timestamp COMMENT '创建时间',
`CRT_PSN` string COMMENT '创建人',
`UPT_TM` timestamp COMMENT '更新时间',
`UPT_PSN` string COMMENT '更新人')
PARTITIONED BY (
`est_prov` string COMMENT '省',
`est_city` string COMMENT '市_原始')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE;#创建城市房产网小区详情表
CREATE TABLE `ch_cmnt_detail`(
`PK_ID`              string  comment '唯一主键',
`CH_PROVINCE`        string  comment '省',
`CH_CITY_ORIG`       string  comment '市_原始',
`CH_AREA_ORIG`       string  comment '区_原始',
`CH_CMNT_ID_ORIG`    string  comment '小区ID_原始',
`CH_CMNT_NAME_ORIG`  string  comment '小区名_原始',
`CH_ALIAS_NAME_ORIG` string  comment '小区别名_原始',
`CH_CMNT_ADDR_ORIG`  string  comment '小区地址_原始',
`GET_METHOD`         string  comment '获取方式',
`CH_DIST`            string  comment '行政区',
`CH_BIZ_DIST`        string  comment '所属商圈',
`CH_CMNT`            string  comment '小区名',
`CH_CMNT_URL`        string  comment '小区URL地址',
`CH_CMNT_SCORE`      string  comment '小区评分',
`CH_ENV_SCORE`       string  comment '景观环境',
`CH_CITY_SCORE`      string  comment '城市配套',
`CH_MAN_SCORE`       string  comment '运营管理',
`CH_BLD_SCORE`       string  comment '规划建设',
`CH_CMNT_BLD_YEAR`   string  comment '链家小区建筑年代',
`CH_CMNT_PER_PR`     string  comment '平均房价',
`CH_CMNT_RENT`       string  comment '平均租金',
`CH_CMNT_BLD_STRU`   string  comment '建筑结构',
`CH_CMNT_BLD_TYPE`   string  comment '建筑类型',
`CH_CMNT_TYPE`       string  comment '分类',
`CH_HSE_STRU`        string  comment '房屋类型',
`CH_CMNT_HOA_FEE`    string  comment '物业费用',
`CH_CMNT_HOA_NM`     string  comment '物业公司',
`CH_CMNT_DEV_NM`     string  comment '开发商',
`CH_CMNT_HSE_TTL`    string  comment '房屋总数',
`CH_CMNT_USE`        string  comment '用途',
`CH_CMNT_HOA_ADDR`   string  comment '物业地址',
`CH_GRN_RTO`         string  comment '绿化率',
`CH_VOL_RTO`         string  comment '容积率',
`CH_CMNT_AREA`       string  comment '占地面积',
`CH_BLD_AREA`        string  comment '建筑面积',
`CH_COM_DATE`        string  comment '竣工时间',
`CH_CMNT_LOC`        string  comment '位置',
`CH_OPEN_DATE`       string  comment '开盘时间',
`IS_AVL`             string  comment '是否有效',
`CRT_TM`             string  comment '创建时间',
`CRT_PSN`            string  comment '创建人',
`UPT_TM`             string  comment '更新时间',
`PRICE_LIST`         string  comment '二手房价格走势信息',
`RENT_LIST`          string  comment '租金价格走势信息',
`UPT_PSN`            string  comment '更新人',
`CH_CMNT_CRAWL_TM`   timestamp   comment '爬取时间',
`BATCH_ID`           string  comment '批次号',
`CH_CMNT_INFO`       string  comment '小区简介'
)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE; 
# 创建城市房产网小区详情分区表CREATE TABLE `ch_cmnt_detail_fq`(
`PK_ID`              string  comment '唯一主键',
`CH_AREA_ORIG`       string  comment '区_原始',
`CH_CMNT_ID_ORIG`    string  comment '小区ID_原始',
`CH_CMNT_NAME_ORIG`  string  comment '小区名_原始',
`CH_ALIAS_NAME_ORIG` string  comment '小区别名_原始',
`CH_CMNT_ADDR_ORIG`  string  comment '小区地址_原始',
`GET_METHOD`         string  comment '获取方式',
`CH_DIST`            string  comment '行政区',
`CH_BIZ_DIST`        string  comment '所属商圈',
`CH_CMNT`            string  comment '小区名',
`CH_CMNT_URL`        string  comment '小区URL地址',
`CH_CMNT_SCORE`      string  comment '小区评分',
`CH_ENV_SCORE`       string  comment '景观环境',
`CH_CITY_SCORE`      string  comment '城市配套',
`CH_MAN_SCORE`       string  comment '运营管理',
`CH_BLD_SCORE`       string  comment '规划建设',
`CH_CMNT_BLD_YEAR`   string  comment '链家小区建筑年代',
`CH_CMNT_PER_PR`     string  comment '平均房价',
`CH_CMNT_RENT`       string  comment '平均租金',
`CH_CMNT_BLD_STRU`   string  comment '建筑结构',
`CH_CMNT_BLD_TYPE`   string  comment '建筑类型',
`CH_CMNT_TYPE`       string  comment '分类',
`CH_HSE_STRU`        string  comment '房屋类型',
`CH_CMNT_HOA_FEE`    string  comment '物业费用',
`CH_CMNT_HOA_NM`     string  comment '物业公司',
`CH_CMNT_DEV_NM`     string  comment '开发商',
`CH_CMNT_HSE_TTL`    string  comment '房屋总数',
`CH_CMNT_USE`        string  comment '用途',
`CH_CMNT_HOA_ADDR`   string  comment '物业地址',
`CH_GRN_RTO`         string  comment '绿化率',
`CH_VOL_RTO`         string  comment '容积率',
`CH_CMNT_AREA`       string  comment '占地面积',
`CH_BLD_AREA`        string  comment '建筑面积',
`CH_COM_DATE`        string  comment '竣工时间',
`CH_CMNT_LOC`        string  comment '位置',
`CH_OPEN_DATE`       string  comment '开盘时间',
`IS_AVL`             string  comment '是否有效',
`CRT_TM`             string  comment '创建时间',
`CRT_PSN`            string  comment '创建人',
`UPT_TM`             string  comment '更新时间',
`PRICE_LIST`         string  comment '二手房价格走势信息',
`RENT_LIST`          string  comment '租金价格走势信息',
`UPT_PSN`            string  comment '更新人',
`CH_CMNT_CRAWL_TM`   timestamp   comment '爬取时间',
`BATCH_ID`           string  comment '批次号',
`CH_CMNT_INFO`       string  comment '小区简介'
)
PARTITIONED BY (
`CH_PROVINCE` string COMMENT '省',
`CH_CITY_ORIG` string COMMENT '市_原始')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE; 
# 插入分区表
insert into ch_cmnt_detail_fq select uuid(),
CH_AREA_ORIG,       
CH_CMNT_ID_ORIG,    
CH_CMNT_NAME_ORIG,  
CH_ALIAS_NAME_ORIG, 
CH_CMNT_ADDR_ORIG,  
GET_METHOD,         
CH_DIST,            
CH_BIZ_DIST,        
CH_CMNT,            
CH_CMNT_URL,        
CH_CMNT_SCORE,      
CH_ENV_SCORE,       
CH_CITY_SCORE,      
CH_MAN_SCORE,       
CH_BLD_SCORE,       
CH_CMNT_BLD_YEAR,   
CH_CMNT_PER_PR,     
CH_CMNT_RENT,       
CH_CMNT_BLD_STRU,   
CH_CMNT_BLD_TYPE,   
CH_CMNT_TYPE,       
CH_HSE_STRU,        
CH_CMNT_HOA_FEE,    
CH_CMNT_HOA_NM,     
CH_CMNT_DEV_NM,     
CH_CMNT_HSE_TTL,    
CH_CMNT_USE,        
CH_CMNT_HOA_ADDR,   
CH_GRN_RTO,         
CH_VOL_RTO,         
CH_CMNT_AREA,       
CH_BLD_AREA,        
CH_COM_DATE,        
CH_CMNT_LOC,        
CH_OPEN_DATE,       
IS_AVL,             
CRT_TM,             
CRT_PSN,            
UPT_TM,             
PRICE_LIST,         
RENT_LIST,          
UPT_PSN,            
CH_CMNT_CRAWL_TM,   
BATCH_ID,           
CH_CMNT_INFO,
CH_PROVINCE,        
CH_CITY_ORIG
from ch_cmnt_detail where batch_id='202110201000'; # 创建城市房产网租房详情表
CREATE TABLE `ch_rent_detail`(
`PK_ID`              string comment '唯一主键',
`CH_PROVINCE`        string comment '省',
`CH_CITY_ORIG`       string comment '市_原始',
`CH_AREA_ORIG`       string comment '区_原始',
`CH_CMNT_ID_ORIG`    string comment '小区ID_原始',
`CH_CMNT_NAME_ORIG`  string comment '小区名_原始',
`CH_ALIAS_NAME_ORIG` string comment '小区别名_原始',
`CH_CMNT_ADDR_ORIG`  string comment '小区地址_原始',
`GET_METHOD`         string comment '获取方式',
`CH_DIST`            string comment '行政区',
`CH_BIZ_DIST`        string comment '所属商圈',
`CH_CMNT`            string comment '小区名',
`CH_CMNT_URL`        string comment '小区URL',
`CH_CMNT_SCORE`      string comment '小区评分',
`CH_CMNT_YEAR`       string comment '小区建筑年代',
`CH_RENT_PER_PR`     string comment '租房平均单价',
`CH_RENT_PER_PR_INS` string comment '较上个月涨幅',
`CH_HSE_RENT_URL`    string comment '租房url',
`CH_RENT_PRICE`      string comment '整租价格',
`CH_BLD_TYPE`        string comment '建筑类型',
`CH_CMNT_BLD_YEAR`   string comment '建筑年代',
`CH_CMNT_AREA`       string comment '占地面积',
`CH_VOL_RTO`         string comment '容积率',
`CH_GRN_RTO`         string comment '绿化率',
`CH_CMNT_DEV_NM`     string comment '开发商',
`CH_CMNT_HOA_NM`     string comment '物业公司',
`CH_BLD_AREA`        string comment '建筑面积',
`CH_TITLE`           string comment '标题',
`CH_HSE_USE`         string comment '用途',
`CH_HSE_AREA`        string comment '面积',
`CH_HSE_TWD`         string comment '用途',
`CH_HSE_TYPE`        string comment '户型',
`CH_HSE_DEG_DECT`    string comment '装修程度',
`CH_HSE_FLR`         string comment '所在楼层',
`CH_HSE_TTL_FLR`     string comment '总楼层',
`CH_RENT_TYPE`       string comment '租赁方式',
`CH_PAY_METHOD`      string comment '付款方式',
`CH_RELEASE_TM`      string comment '发布时间',
`CH_HSE_PROP_BLG`    string comment '权属',
`CH_RENT_INFO`       string comment '出租简介',
`IS_AVL`             string comment '是否有效',
`CRT_TM`             timestamp comment '创建时间',
`CRT_PSN`            string comment '创建人',
`UPT_TM`             timestamp comment '更新时间',
`UPT_PSN`            string comment '更新人',
`CH_RENT_CRAWL_TM`   timestamp comment '爬取时间',
`BATCH_ID`           string comment '批次号'
)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',', 'serialization.format'=',')STORED AS TEXTFILE; 
 
# 创建城市房产网租房详情分区表CREATE TABLE `ch_rent_detail_fq`(
`PK_ID`              string comment '唯一主键',
`CH_AREA_ORIG`       string comment '区_原始',
`CH_CMNT_ID_ORIG`    string comment '小区ID_原始',
`CH_CMNT_NAME_ORIG`  string comment '小区名_原始',
`CH_ALIAS_NAME_ORIG` string comment '小区别名_原始',
`CH_CMNT_ADDR_ORIG`  string comment '小区地址_原始',
`GET_METHOD`         string comment '获取方式',
`CH_DIST`            string comment '行政区',
`CH_BIZ_DIST`        string comment '所属商圈',
`CH_CMNT`            string comment '小区名',
`CH_CMNT_URL`        string comment '小区URL',
`CH_CMNT_SCORE`      string comment '小区评分',
`CH_CMNT_YEAR`       string comment '小区建筑年代',
`CH_RENT_PER_PR`     string comment '租房平均单价',
`CH_RENT_PER_PR_INS` string comment '较上个月涨幅',
`CH_HSE_RENT_URL`    string comment '租房url',
`CH_RENT_PRICE`      string comment '整租价格',
`CH_BLD_TYPE`        string comment '建筑类型',
`CH_CMNT_BLD_YEAR`   string comment '建筑年代',
`CH_CMNT_AREA`       string comment '占地面积',
`CH_VOL_RTO`         string comment '容积率',
`CH_GRN_RTO`         string comment '绿化率',
`CH_CMNT_DEV_NM`     string comment '开发商',
`CH_CMNT_HOA_NM`     string comment '物业公司',
`CH_BLD_AREA`        string comment '建筑面积',
`CH_TITLE`           string comment '标题',
`CH_HSE_USE`         string comment '用途',
`CH_HSE_AREA`        string comment '面积',
`CH_HSE_TWD`         string comment '用途',
`CH_HSE_TYPE`        string comment '户型',
`CH_HSE_DEG_DECT`    string comment '装修程度',
`CH_HSE_FLR`         string comment '所在楼层',
`CH_HSE_TTL_FLR`     string comment '总楼层',
`CH_RENT_TYPE`       string comment '租赁方式',
`CH_PAY_METHOD`      string comment '付款方式',
`CH_RELEASE_TM`      string comment '发布时间',
`CH_HSE_PROP_BLG`    string comment '权属',
`CH_RENT_INFO`       string comment '出租简介',
`IS_AVL`             string comment '是否有效',
`CRT_TM`             timestamp comment '创建时间',
`CRT_PSN`            string comment '创建人',
`UPT_TM`             timestamp comment '更新时间',
`UPT_PSN`            string comment '更新人',
`CH_RENT_CRAWL_TM`   timestamp comment '爬取时间',
`BATCH_ID`           string comment '批次号'
)
PARTITIONED BY (
`CH_PROVINCE`        string comment '省',
`CH_CITY_ORIG`       string comment '市_原始')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE;# 插入数据
insert into ch_rent_detail_fq select uuid(),
CH_AREA_ORIG,
CH_CMNT_ID_ORIG,
CH_CMNT_NAME_ORIG,
CH_ALIAS_NAME_ORIG,
CH_CMNT_ADDR_ORIG,
GET_METHOD,
CH_DIST,
CH_BIZ_DIST,
CH_CMNT,
CH_CMNT_URL,
CH_CMNT_SCORE,
CH_CMNT_YEAR,
CH_RENT_PER_PR,
CH_RENT_PER_PR_INS,
CH_HSE_RENT_URL,
CH_RENT_PRICE,
CH_BLD_TYPE,
CH_CMNT_BLD_YEAR,
CH_CMNT_AREA,
CH_VOL_RTO,
CH_GRN_RTO,
CH_CMNT_DEV_NM,
CH_CMNT_HOA_NM,
CH_BLD_AREA,
CH_TITLE,
CH_HSE_USE,
CH_HSE_AREA,
CH_HSE_TWD,
CH_HSE_TYPE,
CH_HSE_DEG_DECT,
CH_HSE_FLR,
CH_HSE_TTL_FLR,
CH_RENT_TYPE,
CH_PAY_METHOD,
CH_RELEASE_TM,
CH_HSE_PROP_BLG,
CH_RENT_INFO,
IS_AVL,
CRT_TM,
CRT_PSN,
UPT_TM,
UPT_PSN,
CH_RENT_CRAWL_TM,
BATCH_ID,
CH_PROVINCE,
CH_CITY_ORIG
from ch_rent_detail where batch_id='202110201000'; 
10.1 创建70大城市价格指数详情表:
CREATE TABLE ypc_price_detail(
pd_id string comment '价格指数详情ID',
pi_id string comment '价格指数ID',
fixture_date  string comment '成交日期',
value_index double comment '价格指数',
create_time timestamp comment '创建时间',
update_time timestamp comment '更新时间',
creator string comment '创建人',
modifier string comment '更新人',
batch_id string COMMENT '批次号')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE;11.1 创建70大城市价格指数配置表:
CREATE TABLE ypc_price_index(
pi_id string comment '价格指数ID',
pi_pid  string comment '价格指数父级ID',
prov_id string comment '省id',
prov_name string comment '省名称',
city_id string comment '市id',
city_name string comment '市名称',
pi_type string comment '价格指数类型(0-新建商品住宅销售价格指数(定基)|1-新建商品住宅销售价格指数(环比)|2-二手住宅销售价格指数(定基)|3-二手住宅销售价格指数(环比)|4-新建商品住宅销售价格指数(同比)|5-二手住宅销售价格指数(同比))',
use_code  string comment '用途',
is_standard string comment '是否基准年份(0-否|1-是)',
pi_year string comment '指数年份',
standard_year string comment '基准年份',
stan_coefficient  string comment '基准转换系数',
create_time timestamp comment '创建时间',
update_time timestamp comment '更新时间',
creator string comment '创建人',
modifier  string comment '更新人',
batch_id string COMMENT '批次号')
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (
'field.delim'=',',
'serialization.format'=',')STORED AS TEXTFILE;

七、其他操作

①从csv导入数据
load data inpath '/user/Linjj/test11.csv' into table source_city_list_pr_date_creator;
②查询
select * from ods_lj_tran_pr_crawl;
③清空表
truncate table source_city_list_pr_date_creator;
④更改字段数据类型
Alter table source_city_list_pr_date_creator change column batch_id  batch_id string;
⑤删除表
drop table source_city_trans_pr_date_creator_temp;⑥复制表结构并插入数据
create table if not exists ods_data_collection.ods_lj_tran_pr_crawl like test_spider.source_city_trans_pr_date_creator_temp;
 insert into ods_data_collection.ods_lj_tran_pr_crawl select * from test_spider.source_city_trans_pr_date_creator_temp;⑦ 修改数据
insert into table test SELECT * FROM source_city_list_pr_date_creator_temp WHERE lj_hse_ttl_flr is not NULL
⑧修改表名
alter table ods_lj_hse_tran_pr_crawl_2 rename to ods_lj_hse_tran_pr_crawl
 
⑨row format delimited fields terminated by "," STORED AS TEXTFILE;