• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 数学学习 > 正文

    [基于分布式系统的电子档案异地备份方法]档案异地备份

    时间:2019-04-24 03:28:04 来源:雅意学习网 本文已影响 雅意学习网手机站

      随着信息化程度的深入发展,我国数字档案的数据量在以指数方式增长,大量的数据在带给档案管理与应用工作便捷的同时,数据丢失带来的损失也越来越大,灾难备份则显现出重要性。2010年国家档案局局长杨冬权在全国档案局(馆)长会议上要求,“切实落实异地备份制度,对所有多套档案或档案复制件,一定要异地存放至少一套,以防重大灾害对档案造成毁灭性损失。”由于大额的硬件投资和软件以与执行标准的复杂性等原因,异地备份仍然进展缓漫,存在不少问题。
      从现有的电子档案数据结构来看,大部分已经应用的电子档案管理系统使用的是老旧的Access数据库,该数据库有以下缺点:1,数据库过大,一般百M以上(纯数据,不包括窗体、报表等客户端对象)性能会变差。2,虽然理论上支持255个并发用户,但实际上根本支持不了那么多,如果以只读方式访问大概在100个用户左右,而如果是并发编辑,则大概在10~20个用户。3,记录数过多,单表记录数过百万性能就会变得较差,如果加上设计不良,这个限度还要降低。这些缺点导致系统设计时很少考虑数据备份问题,使数据孤立的存在于单台服务器之中,极大地危害了数据安全。
      较为先进的档案管理系统大多应用SQL Server或者Oracle数据库。以SQLServer数据库为例,异地备份通常是依赖作业调度完成的。作业调度是SQL Server中的一个重要概念,能够对指定的一组任务进行循环定期调度。数据库的备份、拷贝传输是放在存储过程里面实现,作业调度就能保证备份按照指定的时间、周期进行。它的基本过程为:1,运行存储过程;2,在存储过程中执行相关命令,备份数据库;3,在存储过程中打开远程服务器共享目录;4,在存储过程中拷贝备份文件至指定远程服务器;5,启动SQL server作业调度任务,把存储过程加入到作业中去,定期调度作业,实现数据库的自动备份。
      这样的数据备份过程同样存在缺点。受限于我国网络的普遍情况,依靠普通民用网络承载大量数据传输的可靠性极低,并且这样的备份过程是单独的点魁点联络方式,数据被负载在单一的数据流中,一个错误会影响整体数据传输过程。数据传输的时间长,安全性上带来的风险呈指数级增加,同时由于硬件条件限制,档案机构一般没有专门的数据同步服务器,较长时间的CPU占用会影响服务器的其他正常工作。
      根据以上缺点,黄新荣等人提出建立档案系统私有云的方法系统解决档案异地备份问题。但是这种方法耗资巨大,全国标准统一困难,涉及大量硬件网络建设,所以可行性低。而云计算概念脱胎于是网格计算、分布式计算、并行计算和效用计算等成熟技术。本文以分布式计算技术为核心,设计了一种电子档案异地备份方法,解决了备份过程中的传输稳定性、效率和数据冗余安全问题。
      分布式系统架构
      1 面向服务的体系结构
      面向服务的体系结构(service-oriented architecture,SOA)是为了解决异构网络环境下业务集成的需求而产生的一种软件系统架构。利用SOA构建的分布式应用程序之间是松耦合连接的,标准化定义的接口把应用程序的不同功能单元联系在一起,使系统架构更加灵活。利用SOA进行系统开发,可以充分利用现有资源从而消除信息孤岛,缩短开发和维护时间,降低成本和风险。
      SOA具有基本的5个特征:
      (1)可重用:一个服务创建后能用于多个应用和业务流程。
      (2)松耦合:服务请求者到服务提供者的绑定与服务之间应该是松耦合的。因此,服务请求者不需要知道服务提供者实现的技术细节,例如程序语言、底层平台等等。
      (3)明确定义的接口:服务交互必须是明确定义的。Web服务描述语言(WebServices Description Language,WSDL)是用于描述服务请求者所要求的绑定到服务提供者的细节:WSDL不包括服务实现的任何技术细节。服务请求者不知道也不关心服务究竟是由哪种程序设计语言编写的。
      (4)无状态的服务设计:服务应该是独立的、自包含的请求,在实现时它不需要获取bL一个请求到另一个请求的信息或_状态。服务不应该依赖于其他服务的上下文和状态。当产生依赖时,它们可以定义成通用业务流程、函数和数据模型。
      (5)基于开放标准:当前SOA的实现形式是Web服务,基于的是公开的W3C及其他公认标准,采用第一代Web服务定义的SOAP、WSDL和U DDI以及第二代Web服务定义的WS-*来实现SOA。
      2 分布式数据体系结构
      分布式数据库系统,由多个服务器和多个客户机组成。服务器一般由高档微机、工作站或专用服务器组成,这些服务器上均运行有分布式数据库操作系统,它们之间通过网络相连,组成一个分布式数据库管理系统。各服务器互相协作,来完成客户对数据库的各种请求。多个服务器主机上的数据库服务器进程,通过网络通信建立并保持联系,每个服务器进程,可以通过服务器接口向其他服务器发出命令,并接收处理结果,或接收、处理远程服务器进程发来的命令,服务器之间协调工作共同完成分布式查询,更新,并进行分布式并发控制、死锁检测和故障恢复等,以保证多个站点上数据库的一致性。
      3 数据资源配置的设计
      为使整个分布式数据库系统协同工作,数据资源的配置应遵循以下设计原则:与组织层次和管理职能相一致原则、保护原有数据资源原则、数据一致性原则、极小通讯量原则、系统可靠性原则和操作方便性原则。
      数据资源配置的设计,是一项极其复杂的工作,除了应遵循上述原则以外,还应该有一套规范的设计步骤和方法,作为设计工作的行动指南。基于分布式数据库的数据资源配置的设计步骤如下:
      (1)局部概念模式的设计,局部应用系统数据概念模型;全局概念模式的设计,对局部概念模式进行归并、汇总和统一,形成整个系统的数据概念模型;全局逻辑模式的设计,应考虑拟采用的数据库管理系统的要求和特点,将全局概念模式转化为系统的全局逻辑模式;数据资源配置方案的设计,主要包括分片模式设计和分布模式设计。   (2)分片模式设计与分布模式设计是互相联系的;局部逻辑模式的设计,根据数据资源配置方案和全局逻辑模式,确定每一个局部应用系统的数据逻辑模型;全局外模式的设计,根据全局应用的数据需求和各级数据逻辑模式,确定全局应用的数据模式,一般是指对外服务的数据模式。
      电子档案异地备份系统设计与实现
      1 容灾备份选址原则
      灾难备份按备份的地点可以分为同城灾难备份和异地灾难备份。同城灾难备份方案是在同城或相近区域内建立两个数据中心,一个为生产中心,负责日常生产运行;另一个为灾难备份中心,负责在灾难发生后的计算机系统运行。这种方案由于生产中心与灾难备份中心的距离比较近,比较容易实现数据的同步镜像,保证高度的数据完整性和数据零丢失。同城灾难备份方案一般用于防范火灾、建筑物破坏、供电故障、计算机系统以及人为破坏引起的灾难。异地灾难备份一般是在两个较远的(100km以上)的城市分别建立生产中心和灾难备份中心,实现远距离的灾难备份。异地灾难备份不仅可以防范火灾、建筑物破坏等可能遇到的风险隐患,还能够防范战争、地震水灾等风险,异地灾难备份需要更多的投资。
      2 备份系统设计
      (1)硬件条件
      根据容灾原则和实验条件,研究根据分布式系统架构设计了3个实验点,分别是位于水利部档案处的外网计算机用于模拟备份数据源,位于中国水利水电科学研究院和北京林业大学的两台模拟备份服务计算机,数据承载网络为北京市公用互联网络,详情请见下表。
      (2)数据库结构
      在模拟实验中使用了SQL Server2008为数据库管理程序设计测试数据库[mwr],除系统表单外包含一张名为[trans,test]表单,其结构为[dbo],[mwr](ID][int]NOT NULL,[text][char(lo)INULL)。ID]用来记录数据量,[text]用来填充随机字节,以便进行数据完整性检查。
      (3)加密方法
      由于本文不研究加密算法,进行数据加密的意义在于验证在加密状态下分割数据包和恢复功能的有效性。因而采取简单加密方法为在源服务器计算出增量包后,把增量包进行二进制打开,把第一字节数据移动到最后一字节位置,然后进行数据包分割。
      (4)分布式备份过程
      由Microsoft C#语言编写基于SOA架构设计的Web-Service服务程序,其备份过程为(见逻辑架构图):
      ①向冗余库服务器查询最大ID号码已变进行增量传输
      ②源服务器提取增量包传递至Web-Service服务程序
      (3)Web-Service服务程序将增量包乱序一分为N,并进行加密(N取决于冗余服务器数量,本例中N=2)
      ④Web-Service服务程序分别向冗余服务器发送各自数据包
      ⑤冗余服务器检查数据包完整性并返回值
      ⑥Web-Service服务程序接受返回值并确认源服务器本次备份数据完成
      ⑦各冗余服务器之间交换数据包
      ⑧各冗余服务器合并交换数据包并解密检验,向源服务器和等位冗余服务器返回值
      ⑨Web-Service服务程序接受返回值确定整个过程完成。
      3 实验过程与结果
      数据传输实验于2012年1月19日上午9时开始,分别在源数据服务器和冗余备份服务器打开伺候结果。源服务器准备初始数据为10000条的数据库,其中ID字段从1进行递增填充,text字段用随机函数填充10位a-z字符。每次更新数据量为10000条,用c#语言中常见sda,Fill()方法填充至数据库。第一次数据同步于当日9时30分开始,每20分进行一次源数据添加并同步过程,共进行10次,至12时30分数据所有数据同步发送完毕,12时50分远程登录冗余服务器运行随机数据程序检验程序进行1000次数据比对,结果均准确无误,验证了程序算法的有效性。
      随后于当日下午3时进行大数据量传输实验,更新数据量为100000条每次,其中位于水科院的冗余服务器无法完整接收数据,反复10次操作无效,导致北京林业大学服务器无法接受从水科院传输的数据包,无法解密恢复完整增量数据包。
      档案异地备份是保障档案信息安全的重要制度。本文针对现有档案备份的不足提出了开创性和可行的分布式电子档案备份方法,进行了原理性的测试实验,并取得了关键的实验数据。
      分布式方法解决了源服务器和单一备份服务器一对一大数据量传输的稳定性,效率,安全和资源占用问题。应用分布式思想,本研究把一次更新数据包加密分解成N个部分包,分别传输给冗余服务器,减少一次服务器对服务器中间的传输量。传输过程结束后,源服务器即可释放相关CPU资源和网络资源,即可与外网隔离,其余工作在冗余服务器进行,相互补充数据包,和源服务器环境脱离。这种分散数据包的形式进一步提高了数据安全性,即便数个数据包在传输过程中被监听,也不可能恢复出整体数据或者很难解密当前数据包内容。这点在实验中得到了验证。
      相比其他研究,本文在理论的基础上进行了程序的设计与备份实验工作,使用北京市的真实网络环境,跨网段(政府网、民用小区宽带、教育网)放置服务器,提高了实验的真实有效性,为研究的商业应用打好了基础。
      在实验中,仍然发现了如下问题,期待后续深入解决。
      大数据量网络传输不稳定问题:在无法改变网络情况的状态下,拟进行断点续传或者分割数据包的研究。
      单个冗余服务器接收数据失败问题:在实验中出现了由于单个冗余服务器接收失败导致整体数据解密失败问题,针对这种现象,拟通过向冗余服务器发送冗余数据包方法解决,例如像冗余服务器1发送(N-1、1、2、Random(N))共四个数据包,但这样会带来数据传输负载增加和数据包被破解风险增加问题,具体问题期待在后续研究中继续探讨。

    推荐访问:分布式 异地 备份 档案

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章