大数据平台深化设计方案
目录
第一章
实现架构及功能逻辑
8
第一节
设计思路
8
第二节
系统架构
10
第一条
系统体系结构
11
第二条
系统设计原则
17
第三条
功能模块描述
19
第二章
大数据中心应用模块详细设计
21
第一节
首页设计
21
第一条
概要说明
21
第二条
界面设计
21
第三条
主要功能详细设计
21
第二节
数据仓库设计
35
第一条
DWS数据库
39
第二条
DM数据库
41
第三节
标准管理
47
第一条
数据字典管理
47
第二条
数据元管理
65
第三条
数据标准管理
76
第四节
数据资源共享管理
82
第一条
编目管理
82
第二条
前段码管理
82
第三条
资源目录管理
89
第四条
文件
108
第五条
数据库/数据集
115
第三章
重点人员监控平台
135
第一节
业务场景
135
第二节
设计原则和设计要求
136
第三节
获取字典项值
136
第一条
请求方式post
136
第二条
请求url
136
第三条
请求参数
136
第四条
返回结果
136
第四节
获取指定重点人员列表
137
第一条
请求方式post
137
第二条
请求url
137
第三条
请求参数
137
第四条
返回结果
138
第五节
获取指定重点人员个人关系
139
第一条
请求方式post
139
第二条
请求url
139
第三条
请求参数
139
第四条
返回结果
139
第六节
获取指定重点人员活动轨迹
140
第一条
请求方式post
140
第二条
请求url
140
第三条
请求参数
140
第四条
返回结果
141
第七节
获取指定重点人员重点记录
142
第一条
请求方式post
142
第二条
请求url
142
第三条
请求参数
142
第四条
返回结果
142
第八节
获取指定重点人员个人信息基本信息
143
第一条
请求方式post
143
第二条
请求url
143
第三条
请求参数
144
第四条
返回结果
144
第九节
获取指定重点人员活动轨迹用于地图展示
145
第一条
请求方式post
145
第二条
请求url
145
第三条
请求参数
145
第四条
返回结果
146
第十节
数据库设计
146
第一条
表结构
146
第二条
实现逻辑
152
第四章
舆情监测分析
154
第一节
网络爬虫系统
154
第一条
业务场景
154
第二条
设计原则和设计要求
154
第三条
数据库设计
154
第四条
实现逻辑
156
第二节
舆情数据分析
157
第一条
功能逻辑描述
157
第二条
功能模块结构图
158
第三节
分析过程数据模型
158
第一条
数据库表:
159
第二条
软件体系架构描述
165
第三条
设计思路
166
第四节
详细设计
166
第一条
热词分析
166
第二条
热点聚类
168
第三条
话题提取
169
第五章
智慧搜
171
第一节
功能模块结构图
171
第二节
软件体系架构描述
172
第三节
业务场景
173
第一条
精确查询
173
第二条
模糊查询
173
第三条
指定类型查询
173
第四节
数据来源
173
第五节
接口设计
174
第一条
按照条件分页搜表数据
177
第二条
按照条件和表名分页搜表数据
180
第三条
按照身份证号和表分类搜表数据
183
第六节
页面设计
185
第一条
搜索主页
185
第二条
搜索详情页
185
第六章
消息中心、关注对象
186
第一节
模块架构
186
第二节
个人消息管理 UI 页面
187
第一条
消息订阅
187
第二条
个人消息
187
第三节
消息管理中心 UI 页面
188
第一条
消息定义
188
第二条
消息订阅
191
2.8.3.3消息推送
192
第四节
概念模型
194
第一条
消息实体
194
第二条
消息中心
194
第三条
消息推送
195
第五节
物理模型
195
第六节
类图
196
第七节
对外接口
197
第七章
平台管理模块
197
第一节
单点登录
197
第一条
交互图
197
第二条
访问流程
198
第二节
用户组权限
198
第一条
实现框架
198
第三节
用户管理
203
第一条
功能描述
203
第二条
实现框架
205
第三条
接口设计
208
第四节
角色管理
218
第一条
功能描述
218
第五节
权限管理
220
第一条
权限管理数据模型
220
第二条
物理模型
220
第三条
类图
221
第四条
对外接口
221
第八章
深化功能
222
第一节
高分大屏
222
第二节
权限管理
222
第一条
角色管理
222
第二条
用户管理
222
第三条
红名单
223
第三节
日志管理
223
第一条
用户操作日志
223
第二条
数据处理日志
223
实现架构及功能逻辑
设计思路
1.标准规范及统一架构
业务标准规范:按照政务数据共享交换的纲领,总体设计思路严格遵守政务数据共享交换的规范化、标准化原则。遵循国家政务信息资源管理、交换、共享有关标准及国家政策要求。按照系统建设标准与规范设计设计数据内容、数据分类与编码、精度与标准等。
建立统一的技术架构:统一的技术路线、统一的产品支撑、统一的技术支撑、统一的业务支撑,为应用系统提供多层面的支撑架构。
建立统一的、标准化的应用集成架构,以约束不同开发商的应用服务接口开发。
2.松耦合、高灵活、可重用设计
政务数据共享交换平台的业务多样,需求复杂,如果按传统的设计思路,就特定问题给出特定方案,将难以满足平台的业务需求的变化及扩展的需求。
系统、模块独立化,采用顶层设计原则,自顶向下设计实现
,
将业务系统高度抽象,归纳,组织为相对独立的子系统,子模块,采用统一的接口标准,统一的数据格式与数据结构标准,将一个复杂的大平台解耦,增加平台扩展性,灵活性与生命力。
提供可扩展的功能模块封装,包括数据源管理、编目管理、资源管理、交换管理、共享管理、用户管理、权限管理、数据分析管理,日志管理,等通用模块的封装,提升各业务系统的质量,提高系统的复用性,减少重复投资
3.系统、数据的安全性设计
数据访问授权,对注册的数据和服务进行访问权限控制。基于账号粒度,控制消费者用户可以访问的信息资源。基于唯一设备ID,控制设备消费者可以访问的信息资源。
安全防护,全方位、多角度对系统、数据、服务、设备进行安全防护。
证书系统,自带CA认证的证书,各节点通过证书安全的组建网络,保证节点可信、不可抵赖,不可更改等安全特性。
4、技术先进性设计
1)具有良好的开放性,支持对结构化、非结构化等不同类型数据的查询接口封装,支持关系型数据库、NOSQL数据库、分布式数据库、内存数据库等多种类型数据存储模式,符合以Hadoop/Spark为代表的主流技术发展趋势要求,能够兼容开源Hadoop体系中的各类组件。
2)采用J2EE技术路线,提供在UNIX、Linux等操作系统上部署。
3)系统应采用B/S架构,支持兼容JDK1.7及以上版本,支持Websphere、WebLogic、TOMCAT等主流应用服务器。
4)版本统一要求,需遵循统一业务规范、统一数据标准、统一数据架构要求。
5)系统支持包括IE8及以上版本的IE浏览器、google浏览器
、
FireFox等主流浏览器。
6)系统应遵循公安部关于信息系统管理的各类技术、业务要求、检测标准、功能标准和数据标准。
7)系统结构遵循工程统一要求,采用多层结构开发部署,实现业务流程与数据处理相分离,内容与表现相分离,使系统真正具备可扩展性。
系统架构
社会治理大数据应用服务平台是一个为网格化社会治理用户提供社会治理全要素数据服务的大数据平台。平台建设可以分为四个层次。分别为社会治理大数据存储结构、全文检索与分析应用、面向社会治理应用在大数据服务能力,实现省级平台数据级联和共享。
系统体系结构
1.2.1.1功能架构
社会治理大数据应用平台采用面向服务架构设计技术,平台总体分层架构由大数据汇集、大数据整合、大数据存储计算分析平台、大数据资源池、大数据研判分析、大数据服务、大数数据可视化展示、大数据管理等7大核心部分组成。
平台架构下图所示:
其中大数据存储计算分析平台依托Hadoop开源生态技术栈搭建分布式存储和计算框架。提供基于离线计算、实时计算、内存计算、图计算等计算框架开发社会治理大数据分析应用。提供关系型数据库、列式数据库、图数据库、内存数据库和全文检索数据库五种数据库,以存储各种类型的社会治理数据资源。提供数据资源的存储、转换、增量导入、数据清洗等功能。经导入和清洗的数据资源,根据其不同的性质、数量和应用方式,将数据存放在相应的数据库系统中。提供标签管理、数据分析模型管理功能,使用图形化的数据建模环境,通过数据分析过程和算法编排形成数据分析计算工作流,完成数据建模应用的开发。
1.2.1.2技术架构
技术架构,平台系统功能可分为4个层次:数据服务层、数据计算层、数据存储层DWS、数据采集层。另外加上数据源层ODS层,数据源层为系统外部业务系统、业务数据库、业务文档库提供。为共享数据交换平台提供数据的支撑。
图-2:综治中心数据应用架构
数据源ODS层:从业务系统,异构结构化数据如公安、人社、民政、政法,和非结构化数据,如新浪微博、百度帖吧、论坛,新闻新点抽取数据到数据湖中存储。作数据规约化,标准化处理。
数据ETL采集层:
◆数据采集层使用可视化的开发开具,通过图形化拖拉拽,敏捷开发模式,集数据建模和ETL设计于一体,能快速响应开发,灵活应对,需求变动,开发者与应用者视角隔离,支持多人协同定义,共享资料库,内置数仓分层结构,提供数仓全局一体化视图,可视化管理和可视化定义,内置丰富的清洗、转换、抽取,支持多种文件格式,如TXT、EXCEL多种数据库类型,关系型数据库0racle、MySql、SQLService、非关系数据HIVE,HBase,Elasticseach,消息中心件Kafka、MQActive,ETL定义支持数据抽样,转换过程支持边设置边预览,基于时间或事件的调度触发模式,批量加载和并行计算机制。
◆数据抽取是根据预设的抽取机制从原始数据中读取数据,包
括结构化数据的抽取和非结构化数据的抽取。抽取机制支持定时抽取、全量抽取、增量抽取、时间戳抽取、触发抽取等。
◆预处理层支持对结构化与非结构化数据的数据去重处理;对于结构化数据,判断在指定时间窗口内,所有字段如果相同,则合并为一条记录。对于非结构化数据,在指定时间窗口内,对非结构化数据指定范围计算md5值,相同MD5值的文件体只保留一个原始文件。
数据存储DWS层:
◆基础库:
基础库包含HBase数据库和HDFS。前者用于存储生产库中关系型数据库数据,后者存储生产环境中的结构化数据和非结构化数据,包括文本、视频、图片、网页等。
◆HBase数据库:
基础库中的HBase数据库可以看做是生产库中关系型数据库的镜像库,其数据结构按照关系型数据库中表结构建设,如下图:
Rowkey
(Hash value)
col1
col2
col3
col1、col2等,与生产库表字段保持一致,统一在一个列组
(列组名为F)下。Rowkey采用hashcode的算法生成散列的hash值。表名的命名采用B_来源_tablename的方式,其中B代表BasicDB,是基础库的意思,来源是生产库用途的拼音的大写缩写,例如来源是旅馆,那么其缩写就是LG。tablename取自生产库本身的表名。
数据计算层:
大数据计算层是从大量的原始数据中抽取有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的数据进行加工整理,这一过程包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索和传播的演变与推导。大数据计算层包括两大基本因素:数据处理和数据管理。如下图所示:
大数据平台计算层
数据服务层:
数据服务层通过数据接口如API,RESTFUL接口对外提供数据服务。同时通过数据服务提供BIDashboard指标功能展示,及前端的大屏展示。
基础设施层:
包括计算设施、存储设施、网络设施、安全设施等。是所有上层软件能力的物理承載,提供了强大的计算能力、大数据量访问与可靠的存储能力、高吞吐的能力、安全可靠的服务能力。
1.2.1.3物理组架构
奉贤综治数据应用服务平台是由web服务,数据库服务,hadoop和es的集群环境组成
系统设计原则
1.2.2.1适用性原则
适用性原则是平台设计的第一原则。社会治理大数据应用服务平台必须能满足各种社会治理业务应用对数据资源的多样性、大数据量、快速响应的要求。
1.2.2.2标准化、规范化原则
平台的各个部件都必须尽可能采用标准的协议、规范,以简化多应用的适用要求。
数据调查的合规合法是所有工作开展的前提,必须保证证据是真实、准确、完整、符合法律法规的。
1.2.2.3先进性原则
依托先进成熟的大数据技术,采用分布式架构实现互联网公共资源数据、社会资源数据,外部资源接口数据以及智能终端的快速取证数据,实现异构数据融合存储,综合分析和深度挖掘;
1.2.2.4实用性原则
建设规范标准的调查数据规范,严格依规收集、鉴别证据,做到全面、客观,与大数据平台汇聚的外部数据能够形成相互印证、完整稳定的证据链。
1.2.2.5开放性原则
社会治理大数据平台提供统一的开放标准数据接口,使用统一的数据接口对接综治及外部资源数据。对县(市、区)已经建设数据汇聚的综治中心,提供标准的数据SDK,保证数据实时稳定汇聚市级平台。同时,平台还必须提供必要的应用开发接口,便于应用系统的开发。
1.2.2.6安全性原则
平台集中了大量的数据,其中很多数据是敏感数据。平台必须有必要的安全设施以保证数据的访问授权和安全审计。
严格执行审查保密制度,在数据调查和获取其他业务协同的数据时不泄露办案信息和留下系统访问踪迹,对采集的数据进行加密传输、集中综合分析。
1.2.2.7可扩展原则
社会治理大数据信息的数量和种类会随着社会治理信息化建设而不断扩充,而且数据处理、分析的技术也会快速地发展,新的技术会随着应用开发和数据处理的过程不断出现。平台必须要有一个可扩充的架构,使得新的数据种类、方法、技术不断地引进平台。
本期项目建设至少满足2~3年的数据存储要求,后期根据数据种类及数据量的变化内容,进行动态地扩容数据中心存储。
功能模块描述
1.2.3.1重构社会治理大数据存储结构
在面向大数据开展应用时,过多的数据表数量以及过于复杂的关联关系会严重影响整体效率。因此,社会治理大数据应用服务平台首先需要根据大数据应用的需求,大幅度简化社会治理的原有数据结构,基于NOSQL列式数据库建立大数据表,在一张或者几张表中整合之前成百上千张表的信息,从多表走向单表。
通过这种方式,大幅度简化数据关联,理顺社会治理数据的关联关系,提升数据应用效果。同时,利用大数据平台容量线性扩展的特性,将海量非结构化数据纳入到平台中来,充分利用已有数据资源,加强数据整合力度。
1.2.3.2提供通用全文检索与分析应用工具
社会治理大数据平台基于自身整合的大数据,为用户提供海量数据的精确查询、模糊查询和全文检索。用户可以使用接近自然语言的搜索条件进行百度式的搜索,操作简便,实现海量数据查询毫秒级响应能力。
除了搜索应用之外,社会治理大数据平台还可以基于整合后的社会治理大数据,实现碰撞分析、统计分析、聚合分析等各种分析应用,为社会治理实战提供服务。
1.2.3.3面向社会治理应用的大数据服务能力
社会治理大数据平台还可以通过数据接口、服务接口,将自身整合的大数据、搜索和分析应用提供给第三方应用群,实现面向网格化社会治理应用的大数据服务,从而使得各级综治中心、网格员可以根据自身业务需求,快速、便捷、灵活地使用大数据服务,降低业务的开发时间和开发成本,适应业务需求的快速变化。
大数据中心应用模块详细设计
首页设计
概要说明
门户首页,提供总览性数据展示,包括机构队伍、基本信息、重点人员、奉贤市地图概览、热点事件、区域帮扶对象、事件办结情况。
界面设计
门户首页,提供总览性数据展示,包括机构队伍、基本信息、重点人员、奉贤市地图概览、热点事件、区域帮扶对象、事件办结情况。
△奉留区粽治大教配系统自
主要功能详细设计
设计思路:
汇总的表较多,考虑到效率的问题,设计了一张中间表,依据字典表对数据分类进行初步记录汇总,业务逻辑直接处理中间表中的数据,并在业务代码中将数据存入了缓存中,已达到快速响应。
表格设计
REPORTTTABLE字典表(表格)
字段名
类型
说明
source_system_name
varchar 2(60)
源系统名称,例如: 公安、人社、法院
source_system_db_type
varchar 2(20)
源系统类型,例如: mysql、oracle
source_table_name
varchar 2(80)
源系统表名
source_table_fieldnumuber
varchar 2(20)
源系统字段总数
source_table_recordnumber
varchar 2(20)
源表中记录数
source_business_type
varchar 2(20)
源表业务类型, 例 如:人、 物、组织
table_code
varchar 2(32)
表格编号
table_en_name
varchar 2(180)
英语表名
table_zh_name
varchar 2 (60)
中文表名
table_title
varchar 2(180)
前端展示标题
table_db_type
varchar 2 (60)
目标数据库类型
table_business_level
varchar 2(20)
数 仓 数 据 模 型 , 例
如
ODS,DWB ,DBS
:
DM
table_big_type
varchar 2 (20)
大 类 , 例 如 : 人、物、组织
table_smalle_type
varchar 2(20)
小 类 , 例 如 : 重 点 人员、上访人员
static_flag
varchar 2 (6)
是否统计标识
static_frequency
varchar 2(60)
统计频度
static_detail
varchar 2(200)
表简短描述
reserve
varchar 2(80)
预留
REPORT_STATIC_SITE字典表(地址)
字段名
类型
说明
site_code
varchar2(16)
地址编号
site_name
varchar2(80)
地址名称
longitude
varchar2(16)
经度
latitude
varchar2(16)
纬度
REPORTTSUMMARY汇总表
字段名
类型
说明
Table_code
Varchar2(32)
表格编号
Table_name
Varchar2(32)
表格名称
Area_code
Varchar2(32)
地址编号
Scount
Number(11)
记录条数
Stat_time
Date
统计时间
Reservel
Varchar2(32)
预留字段
Reserve2
Varchar2(32)
预留字段
Reserve3
Varchar2(32)
预留字段
数据流向
TABLE_CODE
TABLE_EN_NAIE
TABLE_ZH_JAME
TABLE_TITLE |TABLE_BIG_TYPE
150001
REFORT I QIJBXXB
企业基本信息表
企业
15
100009
REFORT I DYXXB
党员信息表
党员
10
150002
REFORT I DYDZZXXB
单位党组织信息表
党组织
15
130002
REFORT I CZFWJCXXB
出租房屋检查信息表
出租房屋
13
100019
REFORT I XHSFRYXXB
刑满释放人员信息表
刑满释放入员
10
100025
REFORT I RIJCXXB
人员基础信息表
实有人口
10
130003
REFORT I FYDJXXB
房屋登记信息表
实有房屋
13
140008
REFORT I JDYLAQGLXXB
寄递物流安全管理信息表
寄递物流
14
100010
REFORT I HURKZFXXB
户籍人口走访信息表
户籍人口
10
100014
REFORT I LDRKXXB
流动人口信息表
流动人口
10
100016
REFORT I SDRYXXB
涉毒入员信息表
涉毒人员
10
100017
REFORT I S0JZRYXXB
社区矫正人员信息表
社区矫正人员
10
100023
REFORT I ZSZHUSBRXXB
肇事肇祸等严重精神障碍患
精神障碍患者
10
120006
REFORT I WGYXXB
网格员信息表
网格员
12
120001
REFORT_T_WGHUSXXB
网格化建设信息表
网格数
12
150006
REPORT I QFQ222XXB
群防群治组织信息表
群防群治组织
15
00022
REFORT I ZDSFRYXXB
重点上访人员信息表
重点上访人员
10
接口设计
1机构队伍
1.1请求方式1.2请求方式
geturl
浏览器
/dptjxx/summary/queryJgdw1.3请求参数
无
1.4返回结果
返回值名称
返回值类型
说明
succesS
boolean
fa l se : 失 败, true :成功
data
array
集合
name
string
名称
value
string
总数
示例
请求:
/dptjxx/summary/queryJgdw
返回:
"success":true,"data":[
name:”网格员”,
value:“112”
},
name:”党组织”,
value:“112”
]
2.1请求方式get2.2请求方式url
/dptjxx/summary/queryJbxx2.3请求参数
无
2.4返回结果
返回值名称
返回值类型
说明
success
boolean
false :失败, true :成功
data
array
集合
name
string
名称
value
string
总数
示例请求:
/dptjxx/summary/quervJbxx
返回:
"success":true,"data":[
name:”实有人口”,
value:“112”
},
name:”户籍人口”,
value:“112”
}
]
3重点人员
3.1请求方式get3.2请求方式url
/dptjxx/summary/queryZdry3.3请求参数
无
3.4返回结果
返回值名称
返回值类型
说明
suCcesS
boolean
f a l s e : 失 败 , true :成功
data
array
集合
name
string
名称
value
string
总数
示例请求:
/dptjxx/summary/queryZdry返回:
"success":true,"data":[
{
name:”社区矫正人员”,
value:“112”},
name:”重点上访人员”,value:“112”
}
4奉贤地图
4.1请求方式get4.2请求方式url
/dptjxx/summary/queryNtsdt4.3请求参数
无
4.4返回结果
返回值名称
返回值类型
说明
success
boolean
false :失败, true:成功
data
array
集合
area
string
地区名
pos
array
经纬度[经度,纬度]
list
array
集合
name
string
名称
value
string
总数
示例请求:
/dptjxx/summary/queryNtsdt返回:
{
"success":true,"data":[
“area”:"南桥",
“pos”:[123.5,30.6],“list”:[
{
“name”:”网格数”,
“value”:”112”
},
{
“name”:”网格员”,
“value”:”112”
}
]
},
“area”:"南桥",“pos”:[123.5,30.6],“list”:[
{
“name”:”网格数”,
“value”:”112”
},
“name”:”网格员”,
“value”:”112”
]
]
}
5热点事件
5.1请求方式get
5.2请求方式url
/dptjxx/summary/queryHot
5.3请求参数无
5.4返回结果
返回值名称
返回值类型
说明
success
boolean
false : 失 败 , true:成功
data
array
集合
name
string
名称
value
string
总数
示例请求:
/dptjxx/summary/queryHot返回:
{
"success":true,"data":[
{
name:”利福”,value:“37496”
},
name:”设计者”,value:“26185”
6帮扶对象
6.1请求方式get6.2请求方式url
/dptjxx/summary/queryBfdx6.3请求参数
无
6.4返回结果
返回值名称
返回值类型
说明
succesS
boolean
f a l s e : 失 败 ,
true:成功
data
array
集合
name
string
名称
yalue
string
总数
示例请求:
/dptjxx/summary/queryBfdx
返回:
"success":true,"data":[
{
name:”奉浦”,value:“37”
},
name:”四团”,
value:“261”
}
]
7事件办结情况
7.1请求方式get7.2请求方式url
/dptjxx/summary/querySjbjqk7.3请求参数
无
7.4返回结果
返回值名称
返回值类型
说明
suCcesS
boolean
fa l se : 失 败, true :成功
data
array
集合
name
string
名称
value
string
总数
示例请求:
/dptjxx/summary/querySjbjqk
返回:
"success":true,"data":[
name:”代办”,
value:“37”
},
name:”待办结”,
value:“261”
}
数据仓库设计
ODS层DWS层DM层
图2:数据仓库建模
平台数 据表
通过奉贤区大数据中心获取的数据,落地到政法委
ORACLE数据库, 目前全量更新,更新周期定义为 1周。
1、一标六实
通过统一的标准地址库,在地图上实现对社区实有人口、实有房屋、实有单位、实有安防设施、实有治安力量、实有警情事件等数据为核心的综合分析和多维展示。
实有人口模块以二维地图加图形化的方式对小区内人口进行分类统计,并可关联查询人员的"一人一档"信息。
实有房屋模块包含小区内楼栋楼层信息、房屋信息、住户信息、成员标签信息,并与"一人一档"关联。
实有单位是指社区内部及周边单位信息,包括单位名称、照片、地址,以及从业人员详细信息。
实有力量包括了对居委干部、楼组长、志愿者、保安、保洁、保绿等相关人员的管理。
实有装备是统计小区内可用的警用装备以及消防设施,通过对实有力量的感知及实有装备的统计,提升对突发事件处理的高效性和精准性。
实有安防设施模块主要管理社区内部已部署的各类感知设备
,
包含高清监控、人脸抓拍机、车辆微卡口、视频门禁、WIFI探针、消防感知设备等。
实有警情事件实现对社区布控告警、接报事件、人口感知
、
车辆感知、告警感知等警情事件的智能分析和流转处理,实现”报警-推送-接警-处置-反馈-统计"管理闭环。
2.2.10DS数据库
2.2.1.1数据库命名
ODS_SSource_System_NameSSource_System_Name为源
系统名
2.2.1.2表命名规则
ODS_SSource_Table_Name_dt0(增量)ODS_SSource_Table_Name(全量)
$Source_Table_Name为源表名;
由此层为源系统接入层表,命名原则上应是”ODS”+源系统表名,名字应在30个字符以内,如源表名超长,适当缩写。
如系统没有表是消息文件方式接入,同样按上述规则进行创建
表名。
2.2.1.3分区规则
2.2.1.3.1同步类型
●每天每批次调度为一个分区、存储历史分区,可回溯历史数据;
●数据分区,每个分数据量数据量为亿以下;
●T+1天调度
建议分区,分区字段建议按数据导入周期时间命名为:l_date;存储格式为YYYY-MM_DD.同时建议用string类型。避免default分区造成数据报错。避免不同时间粒度数据不好判断。
示例如下:
Createtablexxpartitionalby(I_datestring)storedasoracfile
●一天多次调度
建议时间分区,分区字段按数据导入周期时间命名为:1_date存储时间分区存YYYY-MM_DD。同时多批次。按时间建立二级分区字段,I_hour,指定小时区分字段存储格式为hh如:00,01,02(一
天多调度)
2.2.1.3.2分区类型
静态分区、分区字段I_status(I/U/s)、存储全量,active的数据。
I:Insert新增分区数据
U:update更新的分区数据
S:stable稳定的分区数据
示例如下:
Createtablexxpartitionalby(I_datestring,,I_hour
string)storedasoracfile;
2.2.1.4审计字段
ODS_Create_datetime记录创建时间(系统时间
YYYY_MM_DDHH:MM:SS)
ODS_Last_modified_datetime记录最后记录修改时间(系统时间YYYY_MM_DDHH:MM:SS)
ODS_delete_date_datetime记录最后记录删除时间(系统时间YYYY_MM_DDHH:MM:SS)
2.2.1.5索引规则
视ODS表使用的场景而定。
DWS
大数据平台深化设计投标方案(221页)(2024年修订版).docx