文库 货物类投标方案 其他

数据管理平台技术方案163页.docx

DOCX   163页   下载91   2024-06-21   浏览66   收藏0   点赞0   评分-   64705字   26积分
温馨提示:当前文档最多只能预览 15 页,若文档总页数超出了 15 页,请下载原文档以浏览全部内容。
数据管理平台技术方案163页.docx 第1页
数据管理平台技术方案163页.docx 第2页
数据管理平台技术方案163页.docx 第3页
数据管理平台技术方案163页.docx 第4页
数据管理平台技术方案163页.docx 第5页
数据管理平台技术方案163页.docx 第6页
数据管理平台技术方案163页.docx 第7页
数据管理平台技术方案163页.docx 第8页
数据管理平台技术方案163页.docx 第9页
数据管理平台技术方案163页.docx 第10页
数据管理平台技术方案163页.docx 第11页
数据管理平台技术方案163页.docx 第12页
数据管理平台技术方案163页.docx 第13页
数据管理平台技术方案163页.docx 第14页
数据管理平台技术方案163页.docx 第15页
剩余148页未读, 下载浏览全部
技术方案建议书 目 录 1 技术方案建议书 4 1.1 项目需求分析方案 4 1.1.1 现状分析 4 1.1.2 系统功能分析 6 1.1.3 系统性能分析 8 1.1.4 用户需求分析 9 1.1.5 数据需求分析 11 1.1.6 业务需求分析 12 1.1.7 可行性分析 14 1.2 项目技术解决方案 15 1.2.1 项目背景 15 1.2.2 项目概述 16 1.2.3 建设目标 18 1.2.4 建设必要性 19 1.2.5 建设依据 20 1.2.6 项目现状 21 1.2.7 技术路线 23 1.2.8 总体框架 25 1.2.9 功能设计 26 1.3 实施进度计划方案 60 1.3.1 项目整体工期安排 60 1.3.2 项目进度计划表 61 1.3.3 项目里程碑设计 62 1.3.4 项目实施进度保障 63 1.3.5 项目进度控制 67 1.3.6 安装调试与部署 68 1.3.7 系统测试与项目验收 70 1.4 项目实施保障方案 78 1.4.1 组织保障措施 78 1.4.2 制度保障措施 79 1.4.3 技术保障措施 85 1.4.4 质量保障措施 86 1.4.5 项目质量控制 94 1.4.6 项目质量改进措施 101 1.5 项目应急保障方案 104 1.5.1 应急指导思想 104 1.5.2 应急处置原则 104 1.5.3 应急处理机制 106 1.5.4 应急处理流程 106 1.5.5 应急处理措施 107 1.6 人员配置与管理方案 112 1.6.1 项目团队组织架构 112 1.6.2 人员配置计划 113 1.6.3 人员职责配置 114 1.6.4 人员协调管理 117 1.7 项目培训方案 118 1.7.1 培训目标 118 1.7.2 培训内容 119 1.7.3 培训范围及计划 120 1.7.4 培训方法 121 1.8 服务方案 122 1.8.1 服务组织机构 122 1.8.2 服务期和响应时间 123 1.8.3 技术支持及运维服务 128 1.9 安全管理方案 136 1.9.1 安全管理体系建设的目标 136 1.9.2 信息安全管理原则 136 1.9.3 安全管理总体框架 137 1.9.4 安全管理体系技术 138 1.9.5 安全管理体系内容建设 140 1.9.6 安全管理体系措施 140 1.9.7 安全管理策略建设 166 1.9.8 安全组织体系建设 168 1.9.9 安全教育和培训 168 项目需求分析方案 现状分析 网络 数据资源是指从事科技活动的人力、物力、财力以及组织、管理、信息等硬、软件要素的总称。科技数据资源的共享即是公开并整合现有的科技 相关 资源,实现科技 相关 资源的科学、高效使用和管理,充分利用现有资源,不断开创新的资源,使之创造出更大的价值。 目前,对于 科技 数据资源的管理主要存在以下几个问题: 一是,科技数据资源开放共享配套政策措施不完善。 当前,我国已针对科学数据的存储和开放制定了《科学数据管理办法》《国家科技资源共享服务平台管理办法》等对科学数据的汇交、整理和保存进行了规定,并提出坚持“开放为常态,不开放为例外”的基本原则。但 针对 科研成果数据开放共享的法律法规和相关政策缺失、约束机制不成熟、激励政策不足的局面, 最终 会导致科技创新的源动力供给不足,牵绊了科技创新的步伐。 二是,科技数据资源孤立分散和碎片化问题严重。 我省 ( 市 ) 数据资源数量大、种类多、质量参差不齐,数据资源主体各异、存储结构各异,服务方式、安全保障也存在较大差异。企业及科研院所热衷于建设各类高精尖创新中心、制造业创新中心等研发机构,一味注重科技创新资源“增量”增长,忽略了统筹平台间的相互联系。对公益性科学引文数据库建设的不重视和科技数据资源的版权限制导致科技数据信息开源数据平台供应链一旦被切断,支撑我省科技发展的开放学术交流体系建设受阻,将对我省基础科学和工业界造成严重影响。 三是,科创企业获取科技信息资源成本较高,科技经济融合服务能力不足。 数据资源具有鲜明的多源性和领域特色,企业作为创新主体,在资源获取中更注重实操。现有数据管理平台多采用查询模式匹配资源,单项匹配的搜索结果得到的信息可利用率较低;多数平台对网络资源的整合还停留在提供链接层次,尚未实现更深层次的资源融通;一些营利性的服务机构(如网络信息平台、科技中介等)通过收集和分析科技资源信息,提供定制化的付费服务,但数据资源利用率低下、创新针对性不强等问题均加大了科创企业获取科技信息资源的成本,增加了科技成果转化的难度。 四是,数据量大存储难。 海量的数据资源无法统一存储管理,这时就需要处理大量数据,这些数据不仅格式不同,且部分数据是重复的,而且大多数数据都没有相互关联性。 数据需求分析 近年来,随着“科教兴省”战略的实施, 尤其是党的十六届五中全会提出把增强自主创新能力作为科学技术发展的战略基点和调整产业结构、转变增长方式的中心环节以来 ,吉 林省对科技的投入不断增加。到 2021年全省科学研究与技术开发机 构 422个 , 其中政府部门所属独立研究与开发机构135个 , 高等院校所 属科研机构 170个,大中型工业企业办科研机构117个。从事科技活 动人员 8.2万人,其中研究与发展人员2.8万人。拥有中国科学院和中 国工程院院士 29人。全省已建国家及省级高技术研究重点实验室、 工程技术研究中心 (创新中心)等科技公共服务平台93个 , 经国家认定 企业技术中心 13个。全社会科技创新投入大幅度增长 , 2021年研究 与发展活动经费 (内部)支出50.9亿元,占全省生产总值的0.96%。 基于如此庞大的科技信息数据资源,构建一个科技信息化数据资源的共享平台,以资源整合、协作服务为手段,为用户提供科技信息资源有序的流通、资源开放的运行机制,文献资源共建、共享并对外开展服务的窗口,提高科技文献保障和服务能力,推进科技信息化数据资源共建共享。 业务需求分析 数据服务从数据采集到数据加工处理再到数据呈现有着完整的服务流程,这个过程需要经过复杂的处理 。各类不同科技信息服务部门、 企业等虽然其需求千变万化各有不同,但在满足不同种类的用户过程中,其各个业务环节存在关键共性技术问题 。我们将对各过程中的共性 需求进行分析和提取。 数据规划阶段 (1)在搭建数据 管理 系统之前 需要 宏观层面的规划, 避免 所构建的各子系 统各自为政,难以实现有效的沟通。 (2) 通过 宏观层面的规划, 完善 数据服务系统的顶层设计,建立数据 资源集中统一 的组织体系,使数据资源之间形成有效的关联。 (3) 统一规划数据来,建立稳定数据来源。 数据采集阶段 (1)提高数据采集过程的效率,许多人工的重复工作由计算机自动化 技术代为实现 。 (2)加强数据采集过程的连续性和实时性,数据的采集 前置 , 保证数据的实时性要求。 (3) 有效的监控和的分析数据采集过程,在采集到数据后 实现实时的反馈和调控。 信息加工处理阶段 (1) 建立 统一的数据处理模块, 避免造成了人力和物力的浪费。 (2)通过先进的信息技术手段对数据的加工处理, 深层的分析加工,无需人工的二次处理。 (3)数据处理的成果 智能化 产生,处理过程中自动生成专题, 、简报,方便后期的应用。 数据管理阶段 (1)当前数据资源更倾向于分布式存储,所存储的数据格式更为多样,这 些数据资源在不同的管理系统中,不同的网络中以不同的文档和数据的形式存在,通过 系统实现数据资源集中式存储。 (2)有对数据资源进行统一管理和组织的标准和规范,使数据资源 有效地整合在一 起。 (3)能够直接为用户的需求提供服务的数据资源, 对已有知识进行重组,以提供数据的服务。 系统性能分析 可靠性及可用性 指标要求:7×24小时连续运行。 实现措施简述:采用严格的测试手段,确保本系统可达到以上要求。 故障恢复 指标要求:软件故障4小时内恢复。 实现措施简述:软件开发过程中将充分注意保证软件的健壮性、可理解性和可维护性;在实际开发中保留完备的开发阶段文档,一旦发生软件故障,可以保证在当日4小时内通过电话、E - mail、模拟运行环境、远程访问和现场确诊并排除。 扩展性要求 指标要求: 系统必须是构件化、面向对象的,可做到灵活扩展,对一些后续性的功能,能够方便进行扩充或者二次开发。 实施措施简述:对于系统的扩展性要求,采用框架式的系统结构和先进的设计模式,可以充分满足要求。 用户需求分析 科技部门的需求分析 对于科研机构的科技信息服务部门,如各科学院的情报所、行业的信息中心等,一般为科研机构和社会提供着较为定向的服务,如科技查新、定题服务、科技评估、行业状况情报等。 此类科技信息服务部门 一般都自建了相关领域或行业的 数据 资源库,此 外,为更好的服务于科研人员的研究工作,此类机构往往还会订购相关领域的期刊、论文、标准、专利、科技成果、法律法规等数字资源 。为全面地提 供领域或行业资讯,提供竞争类的情报服务,此类机构经常会通过互联网下载最新新闻资讯等,以提供专题知识服务、市场行情跟踪以及产品发展政策等内容。虽然当前科技信息服务都利用其专业优势在资源整合方面进行了诸多研究和实践,但由于缺少宏观统筹,或对先进技术的把握有限,难以实现从原始资源的采集到信息处理加工再到资源库构建的完整流程,因此也就难以满足从资 源整合到统一管理再到提供服务过程中的所有需求,也难以满足用户的个性化服务、用户的增值服务、特定推送服务以及针对行业的竞争情报服务等要求。 随着科技信息服务部门所积累的信息资源的逐步丰富,该类部门提供信息服务的意识逐步加强,逐渐开始为所拥有的资源构建领域或行业资源库,以提高为领域或行业提供情报服务和提供增值服务的能力 。因此有效整合科技 类文献、网络信息资源以及历年所积累的领域或行业的数据成为科技信息服务部门所面临的首要问题。 企业的需求分析 企业自身的信息数据资源一般是其自身发展过程中的各类计划、生产、制造、供应、销售、客户、财务、人事信息,及为管理这些信息所构建的管理系统。另外,企业内还存储着自身的科技资料、档案、工程资料图、办公文档等资源。此外,企业为对外界有足够的认识保持自身的竞争力,还存储着行业产业发展政策、竞争对手动态、市场销售行情、产品技术跟踪等信息。企业数据的多样性和复杂性,使得企业的数据服务人员既需要关注企业内部自身的信息,还需要关注外部环境中的信息,既需要为企业提供科技数据服 . 务,还需要提供竞争情报和决策支持服务。然而当前企业的信息化的水平仅是处于业务层面的管理系统建设,各个业务系统独立运行,相互之间缺乏统一 .的对接接口,相互之间的沟通存在着问 题,随着业务的拓展所构建的系统也增减增多,然而信息仍被封锁在各独立的系统中,难以实现有效的交互,难以对企业的决策提供全局支持 。 因此企业急切需要在宏观规划的调控下,以支持企业业务增强竞争力为核心,实现企业内部和外部数据的有效整合,提供统一 检索平台,为企业提供文 献资源服务,提供行业竞争情报服务,为企业的决策提供支持服务,以最终打造企业的核心竞争力,培育企业自身的创新能力。 可行性分析 数据资源管理项目可行性分析如下: 科技资源按国家标准进行标识,资源数据 合理 ,及时 更新 ;共享服务的方向清晰、服务对象 达到 明确, 能够 建立符合资源特点的服务模式并能够开展服务活动,取得良好服务效果; 国家政策文件指导, 政府机关重视, 省科技厅、省财政厅为共享平台的管理部门,负责项目指导工作; 承建单位拥有大体量的科技资源或特色资源,建立了符合资源特点的标准规范、质量控制体系和资源整合模式,在本专业领域或区域范围内具有一定影响力,具备较强的科技资源整合能力; 承建单位拥有平台建设所需的资金筹措能力,能够成为共享平台运行与管理的投入主体,拥有自有资金投入能力; 承建单位拥有保障共享平台建设、运行与服务所需的科研基础设施和必要的科研仪器,具有稳定的管理与科技服务人才团队,专职人员数量满足平台需要。 项目技术解决方案 项目背景 数据科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。当今世界,各国科技资源在影响区域决策、引导社会舆论、服务公共事务、体现国家软实力等方面发挥着重要作用。高端科技资源建设,不仅是国家进行宏观决策的有力支撑,也是推进国家治理体系和治理能力现代化的重要内容 ,加快以计 算机科学与人工智能为代表的科技领域知识管理与服务能力建设,是科技强国的紧迫需求。在产业数字化发展的背景下,国家大力支持数据融合应用在产业创新发展中发挥更大作用。 为深入实施创新驱动发展战略,规范管理科技资源共享服务平台,推进科技资源开放共享,依据《国家科技资源共享服务平台管理办法》(国科发基〔 2018〕48号),《吉林省科技资源共享服务平台管理办法》, 规范管理吉林省科技资源共享平台,推进科技资源开放共享,提高科技资源利用效率,促进创新创业,为加速吉林经济振兴提供科技支撑。 科学技术数据研究所 是中国科学技术工作者的群众组织,是中国共产党领导下的人民团体,是党和政府联系科学技术 工作者的桥梁和纽带,是国家推动科学技术事业发展的重要力量 。汇聚 科学技术数据研究 内外部数据,引领 数据资源的有效治理和共享融合,开展以数据的深度挖掘与融合应用为特征的智能化应用,打造动态感知、互联、智能的数据管理平台, 是 科学技术数据研究 数据化建设的重要内容。 项目概述 数据管理平台是基础支撑与条件保障类科技创新基地,平台面向全省科技创新、经济社会发展和创新社会治理,加强优质科技资源有效集成,提升科技资源使用效率,为科学研究、技术进步和社会发展提供数据化、社会化的科技资源共享服务,遵循合理布局、整合共享、分级分类、动态调整的基本原则,加强能力建设,规范责任主体,促进开放共享。 平台依托科学技术数据研究所学科门类齐全、领域交叉充分、智力资源密集的独特优势,聚焦科技领域,坚持问题导向,以全球视野动态汇聚、融合关联中国科协内外资源,构建面向全球科技领域的覆盖面广、权威性高、实时性强的知识数据资源池,形成“科技领域—— 专家人才——科研成果 ” 的科技资源知识图谱,建成 “研究兴趣 /学术影响/研究方向 ” 等立体、多维、高精度的专家画像标签体系,建成数据知识领域 研究热点、趋势、人才态势感知服务 ,利用复杂网络关系分析、交互学习等挖掘技术为宏观数据管理与决策提供支 持服务。 通过平台的建设,整理省内数据拥有单位的科学研究数据、检测数据、勘查数据等,建立起若干数据中心和主体数据库,搭建吉林省科学数据平台门户网站,为吉林省各行各业,特别是政府部门开展科技管理、决策,企业、高校、研究院所开展研发及横向联合、数据沟通,为发挥吉林省科教优势,促进经济发展提供及时有效的服务和支持。它是吉林省创新体系的重要组成部分,具有投入稳定、社会共享、公益性和持续性等特点,对全省经济、社会和科技快速发展具有重要意义。 建设目标 数据科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。本项目 以科学技术数据研究所数据中心的大数据为支撑, 构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势:感知服 务能力,为宏观科技管理 与决策提供支持服务。 进一步吸收、融合多来源异构数据,通过持续的数据治理,不断提高数据质量、扩大数据范围、提升数据服务能力;强化数据处理、数据管控和数据挖掘能力,建设更为丰富、更加精准的科技管理大数据服务,为不断提升科技管理现代化创新能力的需求提供全面的技术和数据支撑 。 项目主要建设目的如下: 1.结合国家战略和吉林省经济社会发展的需求,持续开展重要科技资源的收集、整理、保存工作; 2.承接科技计划项目实施形成的科技资源汇交、整理和保存任务; 3.开展科技资源的社会共享,面向各类科技创新活动提供公共服务,开展科学普及,根据创新需求整合资源开展定制服务; 4.建设和维护在线服务系统,开展科技资源管理与共享服务技术研究和应用。 最终,实现 加强优质科技资源有效集成,提升科技资源使用效率,为科学研究、技术进步和社会发展提供数据化、社会化的科技资源共享服务平台,推进科技资源开放共享,提高科技资源利用效率,促进创新创业,为加速吉林经济振兴提供科技支撑。 建设必要性 为进一步加强优质科技资源有效集成,提升科技资源使用效率,科学技术数据研究所依据“盘活数据资产、发挥数据效能,科学性、可行性、创新性、前瞻性相结合”的原则,统筹开展了数据管理平台建设工作,尝试在科技人才精准服务、科技人才成长规律以及科技人才区域流动等方面提供大数据决策支撑服务。系统以 人、机构、成果为纽带和数据组织核心,对所有类型实体数据资源进行全 面融合,形成融会贯通的大规模关系网络 ,并基于此实现了多类深层知识分析挖掘, 在 一定程度上,实现了 科学技术数据研究 现有业务数据资源与互联网数据资源的消歧与融合,在资源共享、业务协同、决策支 持等方面取得一定效果。 数据作为生产要素的属性表明,其未来必将走向市场。数据应用范围将从传统的组织内部应用为主,发展为支撑内部和服务外部并重,数据资产应 用和服务范围的扩大,将成为组织战略发展的一部分。今后 一段时期,组织能否树立数据作为生产要素的战略意识,挖掘和利用数据价值、盘活数据资源,实现数据资产保值到增值,决定了组织能否迈出生产要素到生产力转化的重要一步。 建设依据 为深入实施创新驱动发展战略,规范管理科技资源共享服务平台,推进科技资源开放共享,依据《国家科技资源共享服务平台管理办法》(国科发基〔 2018〕48号), 本平台的建设围绕吉林省深入实施创新驱动发展战略,重点利用科研设备设施、科学数据、生物种质、实验材料等科技资源而设立的专业化、综合性公共服务平台,构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势感知服务能力。 项目现状 近年来,随着“科教兴省”战略的实施,尤 其是党的十六届五中全会提出把增强自主创新能力作为科学技术发展的战略基点和调整产业结构、转变增长方式的中心环节以来,吉林省对科技的投入不断增加。到 2021年全省科学研究与技术开发机构422个,其中政府部 门所属独立研究与开发机构 135个,高等院校所属科研机构170个,大中型 工业企业办科研机构 117个。从事科技活动人员8.2万人,其中研究与发展 人员 2.8万人。拥有中国科学院和中国工程院院士29人。全省己建国家及 省级高技术研究重点实验室、工程技术研究中心 (创新中心)等科技公共服 务平台 93个,经国家认定企业技术中心23个。全社会科技创新投入大幅度 增长 ,2021年研究与发展活动经费(内部)支出50.9亿元,占全省生产总值 的 0.96%。 如此庞大的科技数据资源在管理方面,主要存在以下现象: 海量“孤岛”科技数据难以共享 。科技数据的数据源载体多、存储形式多样、数据类型广泛,数据资源孤立分散,给科研人员的数据分析、共享及管理过程造成了比较大的麻烦。在数据驱动的研究背景下,海量数据通过多种途径和方式获取,并存储在硬盘、数据库或其他存储介质中,则研究者每次进行数据分析时都要采用不同的方式调取数据分别管理。与此同时,数据共享的方式也比较局限,若是使用网盘共享,数据上传、下载耗时耗力;移动硬盘共享倘若后续发生数据修改也很难再同步给相关共享人;云计算虽然可以调用公开数据,但有些无法提供本地上传数据集的接口,也并不方便。 科技数据数据资源配置不平衡。 吉林省科技数据资源配置集中度较高,少 数的科研机构、高等院校占有大量的科技数据资源,对于多数企业,特别是中小企业而言一方面自身对于科技数据投入的认识不足,而且企业应用数据技术的水平偏低,应用范围只停留在设立企业网站上 ;另一方而购买大量的 网络数据库资源需要雄厚的资金支持 ,往往大大超出企业的投资成本。 科技数据存储安全性都没有保障。 传统的有限防护机制不一定能保障数据权益和数据安全,数据共享者将面临风险责任与权利受益的矛盾。一方面,科学数据本身具有可复制性,在共享中易被窃取,造成数据贡献者自身产权受到侵犯;另一方面,数据的集中化共享很有可能导致数据使用边界模糊,增加了数据误用、数据滥用等多重风险。现有大部分共享平台可追溯性差,即使数据泄露,参与用户也很难追究。 技术路线 系统应用软件采用基于组件的多层架构。最底层是系统平台层,主要基于标准的 J2EE组件。上层 是应用平台层,包括工作流引擎组织权限框架、基础数据访问组件等。这些组件分别封装了工作流、组织权限、数据访问等方面的基本功能部件 ,是应用 系统构建业务逻辑的基础。在应用平台层之上 ,是 由各种业务数据模型、配置数据、组织权限定义、应用系统的业务处理逻辑和界面控制逻辑等组成的软件系统。通过组件化拼装,形成了整个应用软件系统 ,并通过内部息互联确保整个系统稳定、有效 地运行。同时这种架构已经充分考虑到未来系统的扩展性及集成性 ,为未来系统的扩容和与其他相关 应用系统的整合提供技术保障。 技术架构 1 )分布式缓存。 分布式缓存技术四用于动态Web应用以减轻数据库负担。它是通过在内存中缓 存数据对象来减少读取数据库的次数 ,从而提高数 据库响应速度。 2)网页HTML静态化。 效率最高、消耗最小的 就是纯静态化的 HTML页面叫,因此本系统尽可能 多地使网站上的页面采用静态页面来实现。由于本系统网页内容需频繁更新 ,采用了数据发布系统实 现最简单的数据录人并自动生成静态页面 ,同时具 备频道管理、权限管理和自动抓取等功能 ,避免了大 量数据被前台程序调用 ,从而减少大量的数据库访 问请求。 . 3 )数据库集群和负载均衡。 本系统采用了数据 库集群技术 ,解决网站面对大量访问时数据库的 瓶颈问题。负载均衡 解决了网站高负荷访问和大 量并发请求的快速响应问题。 总体框架 系统采用 B/S架构即浏览器和服务器模式,用户通过浏览器输入指定的IP或者网址即可访问到管理系统。与传统的C/S架构相比,大大简化了客户端,使得客户端机器只要能上网就可以实现开发、维护等几乎所有工作都集中在服务器端,当企业对系统应用进行维护与升级时,只需更新服务器端即可,这节省了大量的时间与成本。同时系统要求:企业内部所有人员均需要能够进行简单操作,同时少数的系统管理人员会进行稍微复杂的管理操作;系统能够进行简单部署,集中管理。因此采用B/S结构模式进行开发较为恰当。 功能设计 数据管理平台的综合集成,是查询、统计、关联、图谱及可视化等各类功能的数据基石。数据管理平台实现了各来源科技数据资源的导入和集成管理,平台支持研究院现有业务数据资源导入并支持开放数据的获取。 平台功能主要包括数据管理、知识图谱构建、专题库管理、系统管理、多维度导航、科技资源统一检索。 数据管理 数据管理包含数据源分析、数据接入、数据存储与计算等。 数据来源 本项目中所用到的数据主要是甲方合作的商业数据:包含中国知网、万方数据、维普数据、国家科技图书文献中心、中国工程院知识中心、读秀、尚唯科技报告和产品样本库、中经数据库、万方、科慧项目数据和中国科学院计算机所的科学数据等。 所涉及到的数据通过数据库或者接口方式接入,类型包含但不限于:期刊论文、学位论文、会议论文、科技报告、产品样品、标准、科技成果、科技政策、人才数据等。 数据采集 (1)抓取Internet网络资源,可以对静态网页中的文本数据进行抓取和下 载,可实现基于模板的网页数据提取和元数据抽取。 (2)自动下载网络数据库中的数据,可自动下载网络数据库的元数据以及 其中的数据,并可根据数据的数据自动抽取数据库的元数据。 (3)对本地 相关文档 数据进行采集,可自动对本地数据 资源属性进行抽取,并对资源进行相应标注。 (4)对数据进行自动过滤、归类和整理,对所采集的数据进行重复性过 滤,去除重复资源,在此基础上对获取的资源进行归类,并对归类后的资源进行索引、重排等整理。 (5)根据用户需求,按照用户的个性化需求在资源中选择合适的数据提供 给用户,并按照需求将相关数据加载到资源库中。 (6)对Internet进行检测和监控,为用户提供任务调度预设功能,根据用 户的设定定期跟踪网络资源的变化情况,对新增资源进行识别,并在本地库中进行记录,实现实时网络监测和监控。 数据整合 根据不同数据资源所共有的标题、作者、单位、出版刊物、关键词、中英文摘要、参考文献等数据,整合到一个检索系统中,用户通过元数据对资源进行检索,系统的搜索引擎将遍览各资源数据库,最后将检索结果整合在一 起将数据资源的概要和链接提交给用户。基于数据的整合,在用户提交检索请求前就已将数据资源整合到一 起,因此在用户检索时期效率较高。 数据接入 数据管理平台提供数据源接入的功能,通过监控数据源的数据,实现实时及离线数据的同步,如果是实时的数据,会转发到数据分发服务上,由数据分发服务对数据进行实时分析,与存储。计划支持关系型数据 ,或者通过监控数据库的binlog,来实现数据的同步。在数据同步方式建立好,需要通过配置的方式,将源数据的属性信息与数据平台的数据仓库的属性进行关联,这样才能完成从数据源将数据转化为数据仓库的数据结构,适应后面的数据清洗、计算、归总等处理过程 ,通过提供数据源,数据源的字典等信息,将数据导入到数据平台。 平台支持不同种类、不同数据源、不同目标库的数据接入。支持 Oracle、Sql-Server、My-Sql、H-base、Hive等主流数据库,支持常用文件类型: XML、CSV、EXCEL等。 数据库接入
数据管理平台技术方案163页.docx
下载提示

如果下载遇到任何问题,请联系客服专员!

微信公众号
微信客服