登陆注册
6874500000010

第10章 数据存储与数据挖掘(2)

3.分级存储管理技术

分级其实就是意味着用不同的介质来实现存储,如RAID系统、光存储设备、磁带等,每种存储设备都有其不同的物理特性和不同的价格。当需要备份的时候,备份文件一般存储在速度相对比较慢、容量相对比较大、价格相对比较低的存储设备上,这样做很经济实用。那么如何实现分级呢?从原理上来讲,分级存储是从在线系统上迁移数据的一种方法。文件由HSM系统选择进行迁移,然后被拷贝到HSM介质上。当文件被正确拷贝后,一个和原文件相同名字的标志文件被创建,但它只占用比原文件小得多的磁盘空间。以后当用户访问这个标志文件时,HSM系统能将原始文件从正确的介质上恢复过来。分级存储可以有不同的实施方式,HSM根据两级或三级体系将动态迁移/回迁的数据分类,从而实现分级存储。

分层次的管理方式可以解决存储容量不断增长导致的如何有效扩充容量的问题,多用于分布式网络环境中。

4.单一实例存储技术

单一实例存储技术(Single Instance Storage,SIS)通过减少冗余数据释放更多的磁盘空间,识别相同的文件,仅仅在中心位置保存一个副本,并在SIS公共存储区域保存文件的指针而不是保存文件本身。如果当存储的装置里面有很多相同内容而且重复的数据或文件,用户往往会浪费大量的磁盘空间,这对于用户是很高的管理成本和使用成本,而单一实例存储技术可以帮助用户解决这个管理问题并节省大量的存储空间。SIS被启用后,会作为一个后台的服务运行,把内容重复的文件合并到一个共用的存储空间。重复的文件被该文件的链接替代,对于用户和应用程序来讲就像原始文件一样。SIS技术已经实施于大型企业环境,并极大地节约了重复文件占用的磁盘空间,从而最大限度地利用目前的存储资源。

总之,存储应用的深入必然带来对整体解决方案的需求,这不仅包括硬件,还包括相应的软件以及服务。一个软硬件兼容的融合应用环境是大势所趋,比如,存储虚拟化的提出就证明了这一趋势。因为它有利于提高存储利用率、简化管理和降低成本,构建一个融合的存储应用大环境。

随着网络技术的发展、计算机能力的不断提高,数据量也在不断膨胀,数据备份与恢复等存储技术方面的问题显得越来越重要,存储管理技术的发展必将引起业界的高度重视。

3.2.3重复数据删除技术

重复数据删除技术被业界称为容量优化保护技术(简称为COP技术)。按照ESG(En-terprise Strategy Group)的定义,重复数据删除技术是一个减少或消除冗余文件、字节或数据块的过程,从而确保只有“独一无二”的数据被存储到磁盘。由于存储的数据具有很高的共性———用户之间、服务器之间甚至同一文件(如Office文档)的内容是通用的,重复数据删除技术按自然边界把数据拆分为非常细粒度的子块单元,用指针代替相同的子块单元,从而达到显著降低存储空间的目的。利用重复数据删除技术,1TB的备份数据可根据备份数据的共性,存储为300~700GB不等。

1.重复数据删除技术的存储价值

重复数据删除技术的真正价值在于处理已存储过的数据,特别是以下情况:

(1)从不同的服务器备份相同的数据(公用操作系统文件、应用程序文件甚至电子邮件和附件)。

(2)大部分内容为“静止”的“活跃”数据,如数据库、文档、电子表格和演示文稿。

(3)已备份过一次的数据。由于备份操作具有高重复性的特征,日备份和周备份的数据大致相同,变化率至多只有5%~10%。因此,可以利用数据重复删除技术进行高效的后续备份。特别是针对完全备份的应用场景,如果每天都做完全备份,在这种情形下,每月实现10∶1到50∶1的备份比率是完全可能的。

2.重复数据删除技术的客户价值

重复数据删除技术的客户价值是多方面的,但是最显著的优点是解决了一直困扰备份恢复业界多年的“容量膨胀”问题,因为重复数据删除技术可以在后端大为减少备份数据量。该图中以相同颜色的块表示重复数据块。重复数据删除的效率取决于应用和数据类型,就像图示中具有相同颜色的块,除保留一个外,其余的都会被过滤掉。

3.影响重复数据删除比的因素

(1)重复数据删除的处理粒度

重复数据删除的处理粒度越细,则重复数据删除的效率越高。一般的重复数据删除是在文件级实现的,虽然有减少备份数据的作用但其效率明显不如在字节级实现的重复数据删除技术。同样,在块级实现的重复数据删除比字节级实现的效率更高。

通过以下的例子来说明处理粒度对重复数据删除技术而言的重要性:创建一个1MB的PPT演示文档,然后通过电子邮件将其发送给20位员工,在传统的备份环境中,由于没有重复数据删除技术,每天晚上执行全备份作业时,这20位员工所接收到的PPT演示文档将作为邮件附件备份,即使没有一位员工对收到的PPT演示文档做过任何修改,备份作业同样要保存20份相同的文档,占用相当大的存储空间(20×1MB)。即使在一家小型企业组织,同样的问题仍然会使浪费宝贵的磁盘空间、能耗和冷却系统。

在上例中,如果采用文件级的重复数据删除技术,系统会只保留一份PPT演示文档,其他19份相同的PPT演示文档附件将被指针代替。而指针的数据量比实际的文档要小得多,可以节省大量的磁盘空间,用来存储其他应用数据或者提高备份数据的保留周期。

基于字节级和块级的重复数据删除技术作了进一步的优化,它将1MB的PPT演示文档看成是由很多的数据块或字节单元组合而成,与已经存储的数据块或字节单元进行比较,相同的组成单元被指针替换。

数据重复删除技术已被一些计算机生产商集成在其系列设备中(如昆腾的DXi系列),在后台为现有备份流程提供支持。用户继续使用现有备份软件和策略,察觉不到重复删除的过程,存储的数据却因此增加了10到50倍。

重复数据删除处理的数据种类越多,容量减少就越大。总体来看,文件级的重复数据删除虽然有效,但其检测的重复数据要少于块级或字节级的重复数据删除。同样,字节级重复数据删除在检测数据重复上比块级的重复数据删除通常更有效。

(2)其他因素

除了处理粒度之外,影响重复数据删除比的因素还有数据类型、数据的变化率以及数据的保留时间等等,这些都会影响实际的重复数据删除效率。根据ESG实验室对几种不同的重复数据技术的测试结果来看,在不考虑处理粒度的情况下,基本上都能达到10倍或20倍的重复数据删除效率。

4.重复数据删除技术在完全备份中的应用

备份的最终目的是恢复,以往备份管理员在制定备份策略时,通常采用每天增量备份方式结合阶段全备份方式,如每月或每周全备份。从恢复速度的角度出发,全备份方式(full backup)更有利,那为什么90%以上的备份管理员还在使用增量备份呢?原因是由于一次全备份的数据量太大,无法满足日益苛刻的备份窗口要求,完全属于不得已而为之。由于完全备份模式的数据块重复率是所有备份模式中最高的,所以重复数据删除技术非常适合完全备份的场合,因为它能够显著降低每次完全备份的实际存储的数据块数量,从而使用户能在短暂的备份窗口期间完成关键作业的备份,在需要恢复时,又能较快地恢复出保留周期内任意一天的数据。

在部署备份和恢复的普通磁盘时,经济因素限制了从磁带上卸载并转存到磁盘的数据量。使用数据重复删除技术,在相同的磁盘空间内,以前只能保存最近一周的数据,现在可以存储一个月或更长时间的数据,因此大大增强了恢复选项。这一优势使IT部门能够低成本有效地在磁盘上保留数月的备份数据,适合从250GB到超过10TB的主数据集,可以实现更快、更可靠的恢复,并能大幅度增加数据恢复点的数量。

3.3云存储

云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。

3.3.1云存储的特点

1.云状的网络结构

在常见的局域网系统中,为了能更好地使用局域网,一般来讲,使用者需要非常清楚地知道网络中每一个软硬件的型号和配置,比如采用什么型号交换机,有多少个端口,采用了什么路由器和防火墙,分别是如何设置的。系统中有多少个服务器,分别安装了什么操作系统和软件。各设备之间采用什么类型的连接线缆,分配了什么IP地址和子网掩码。

但当使用广域网和互联网时,用户只需要知道是什么样的接入网和用户名、密码就可以连接到广域网和互联网,并不需要知道广域网和互联网中到底有多少台交换机、路由器、防火墙和服务器,不需要知道数据是通过什么样的路由到达自己的电脑,也不需要知道网络中的服务器分别安装了什么软件,更不需要知道网络中各设备之间采用了什么样的连接线缆和端口。

广域网和互联网对于具体的使用者是完全透明的,经常用一个云状的图形来表示广域网和互联网。虽然云状的图形中包含了许许多多的交换机、路由器、防火墙和服务器,但对具体的广域网、互联网用户来讲,这些都是不需要知道的。这个云状图形代表的是广域网和互联网带给大家的互联互通的网络服务,无论在任何地方,都可以通过一个网络接入线缆和一个用户、密码,接入广域网和互联网,享受网络服务。

参考云状的网络结构,创建一个新型的云状结构的存储系统系统,这个存储系统由多个存储设备组成,通过集群功能、分布式文件系统或类似网格计算等功能联合起来协同工作,并通过一定的应用软件或应用接口,对用户提供一定类型的存储服务和访问服务。

2.云存储重在服务

就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。

云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。当使用某一个独立的存储设备时,用户必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期地状态监控、维护、软硬件更新和升级也是必需的。

如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。

3.3.2云存储的结构模型

与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。云存储系统的结构模型由4层组成。

1.存储层

存储层是云存储最基础的部分。存储设备可以是FC光纤通道存储设备、NAS和iSC-SI等IP存储设备、SCSI或SAS等DAS存储设备。云存储中的存储设备往往数量庞大且分布多不同地域,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。

2.基础管理层

基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分,位于存储设备之上,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。

基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。

3.应用接口层

应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。

4.访问层

任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。

同类推荐
  • 哈佛教授讲述的300个经济学故事(超值金版)

    哈佛教授讲述的300个经济学故事(超值金版)

    经济学研究的是我们身边的世界,它揭示的是复杂世界背后的简单道理。经济学是一门经世致用的学问,小到家庭消费、生产经营,大到国际贸易、宏观调控,都是经济学的研究对象。萨缪尔森说得好:“学习经济学并非要让你变成一个天才,但是不学经济学,命运很可能会与你格格不入。”无论是政府决策,还是日常生活中的柴米油盐、衣食+住行,我们都可以从经济学中获得有益的启示。事实上,经济学也不是一门艰涩难懂的学问。在经济学大师米尔顿·弗里德曼眼中,“经济学是一门迷人的科学,最令人着迷的是,经济学的基本原理是如此简单,只要一张纸就可以写完,而且任何人都可以了解。”
  • 餐馆赢在决策:定位决定成败

    餐馆赢在决策:定位决定成败

    本书分为理念篇、实务篇、误区篇。采用了先讲案例,再做画龙点睛似的精辟短评,然后配以漫画加深读者印象的表达形式,力求生动形象地、深入浅出地把决定成败的道理娓娓道来。
  • 三农中国的经济学阐释

    三农中国的经济学阐释

    作者以经济学为视角,对当前中国社会发展过程中出现的一些社会问题、经济问题、“三农”问题进行了阐释,观点新颖,具有较强的可读性。书稿由三部分组成:一是社会问题的经济学分析;二是经济理论研究;三是乡村发展。
  • 从零开始读懂博弈论

    从零开始读懂博弈论

    博弈论是在西方哲学、经济学、心理学、信息论的基础上发展创新出来的思维利器。我们身边无时无刻不存在着博弈,生活中常见的一些问题都能够运用博弈论来寻找最佳的解决之道,用博弈智慧来指导生活决策。《从零开始读懂博弈论》通过图文结合的方式介绍博弈论的基本思想及运用,通俗易懂,饶有趣味,并寻求用博弈的思维智慧来指导生活和工作。读者可以在生活中常见的事例中轻松领会博弈思维的精髓,获取开启人生智慧的金钥匙。
  • 每天懂点好玩经济学

    每天懂点好玩经济学

    本书以轻松幽默的笔触,将貌似深奥的经济学道理映射到生活中的方方面面,组成一幅幅快乐又富有智慧的经济学生活长卷。让你在轻松好玩中掌握经济学的精髓,让经济学成为弥掌控生活和工作的左膀右臂。
热门推荐
  • 我家有个破财的

    我家有个破财的

    顺风:妈妈,我想吃糖。孩子妈:啊,好。然后妈妈随手从包里拽出一个小鬼,一分钟后递给顺风一个彩色棒棒糖。顺风舔了舔,嗯?哈密瓜味。
  • 黑道商骄的凶悍妻

    黑道商骄的凶悍妻

    她,被恶魔强占了初夜……亲人的背叛将她推到悬崖峭壁……她悄悄生下他们的骨肉,他却将摇篮中的生命残忍扼杀。于是,她不再忍让,不再原谅!一夜之间,她从平凡女人成为商界骄子,大权在控,她要毁掉他所有的一切!他,是为爱成魔的地产界大亨;他,是游戏花丛的纨绔富家子;他,是冷面冷心的腹黑商骄子;他,是任性睿智的黑帮继承人;他,他,是蓝颜亦或是敌人……谁是幕后黑手,操纵全局?谁是爱情玩家,成败难定!
  • 情系冷酷的你

    情系冷酷的你

    千年之恋,她曾是他最美的妻子,却因误会而被他亲手毁容。千年间,他们相爱,相杀。从此,她化身为“她们”,凭借残碎的记忆,穿梭于千年之间,找寻故事的真相。“我想,我得了奇怪的病。”“不,这不是病,这是你的命运。乖孩子,跟着叔叔来吧。”他伸出他的手,握住她的小手,将她领入光明之中。在失去意识之前,她听到他说“要照顾好我家儿子哦,小儿媳妇~”这篇小说或许不是那么好,不过本兔子不会加V的哦~大家可以随意收藏多多支持~~
  • 超级掌门

    超级掌门

    子曰:以武会友,不亦悦乎,今日小夫自当以这身通天彻地毒功会尽天下英雄,呜呼,不亦快哉!现代青年丁鹏携带掌门系统,穿越古代江湖,穿是成功了,越还没有到位,不得不从零开始修炼。倒霉的是他正好附身在了一个三流小派低级弟子身上,成为低手中的低手,经历一番内部斗争,刚刚站稳脚跟,却又好死不死得罪了一群初出茅庐想博取江湖声名的名门大派侠二代,被人诬陷追杀,臭名远扬,人送外号“毒手人屠”……
  • 烟雨红楼之漱玉传

    烟雨红楼之漱玉传

    有些人,一旦遇见,便一眼万年;有些心动,一旦开始,便覆水难收;有些情,一旦眷恋,便海枯石烂;有些缘分,一旦交织,便在劫难逃。佛理有言,姻缘有定,今生相遇,前世修行。缘聚缘散缘如水,背负万丈尘寰,只为一句,等待下一次相逢。玲珑心,她是绛珠仙草,灵河岸边,三生石畔,一夕承露,永世缱绻...万千柔情只许一人,他是冰龙敖晟,却为她,陌陌红尘,一路追随,只为许她一生一世一双人的独宠...君子如玉,他温润忠纯,却为她,苦苦煎熬,一叶绽放一追寻,一生相思为一人,当三千青丝落尽,断得了红尘,忘不了痴情...邪狷如斯,他逍遥尘世,本以为可以无所挂碍,却偏偏逃不脱情之一字,傲气散尽,只为默默守护她的幸福...
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 玄明箓

    玄明箓

    白衣蒙尘,一骑风沙。落天涯摔下马来,他已经筋疲力尽。慌不择路竟然跑进了深山密林。或许这样更好,争取更多时间疗伤。落天涯寻得一个隐秘的藏身之处,拴好马儿,运功疗伤。密林外,人头攒动,气势汹涌。为首的中年男子示意大家停下,眉头微皱道:“真是自寻死路,他进了云龙架。”一侧的青年男子望望四周,秀气的脸上波澜不惊,面无表情道:“传闻此地有进难出,珍禽异兽群集,灵物伤人防不胜防,他摆明是诱我等深入,借地利之手削弱我等。“冷观主此言有理,但已经追到这一步了,不入虎穴焉得虎子。况且我们人多势众,又有何惧”中年男子眼里闪过狡黠的兴奋,看起来格外狰狞。然后振辔入林,大队人马随机跟上。林鸟四窜飞散,乱如漫天繁星。
  • 科学天才之热血少年

    科学天才之热血少年

    这是一个热血冒险的科技时代,世界各国无不涌进科技的历史潮流。各国人才辈出,纷纷投入科技的激烈竞争中。生在科技时代,热爱科学发明的中学生明哲,经常沉迷于自己的发明创造之中。有一次,明哲设计出栩栩如生的机械风神翼龙。操控着机械风神翼龙,明哲到处抱打不平,阻止了一些犯罪现象。
  • 峘寻镜

    峘寻镜

    是不是简介正经一点儿,你们就不来看渣乐,是吗?不要被外表欺骗了,要善于发现本质,快来呦~一面遗失千年的古玉镜,内含有一缕仙魂,这仙魂乃是上古时期女娲娘娘炼石补天所遗存的。寄于之镜,名为峘寻,乃女娲娘娘身边近物,集了天地间灵气,故是上等疗养的仙器。此镜可窥千古往事,亦可测来世之遇,法力无边。伏羲大帝日日以凤凰琴对镜弹奏,纳世间纯元精气,历经千载,镜中仙魂竟得以仙躯,貌似洛神,却又美上几分。女娲娘娘亲赐姓名,仙魂得名,令长久。她是神,也不是神;她有过去,也没有过去;她想长久,也想一刹永恒……她说,要让天下有情人终眷属……末了,也不过是花归尘罢了……
  • 霸总又让我继承亿万家产

    霸总又让我继承亿万家产

    C城上层圈子里有两大自带热度的人物。首富时家的太子爷,公认的颜值天花板,但人冷手狠不好惹。豪门秦家的大小姐,神秘天才千金,但体弱多病据说还貌丑。秦双本想低调混圈,却发现自己成了招黑体质。黑粉:秦.十八线.双,被锤的小三儿,还敢蹦跶!当天,渣男连夜发文澄清:那是我陷害的秦小姐,我有罪!黑粉:她还勾搭我们家傅影帝,不要脸!傅影帝:事实上是我在追求秦双小姐,但她没有答应我_(:з」∠)_黑粉:……她有金主爸爸,照片为证。老秦总:滚犊子,这是我闺女,亲生的。霸总亲哥:混的这么惨,是时候滚回来继承家产了。@秦双秦.十八线.双:家产是不可能继承的了,这辈子都不可能。黑粉:……mmp,不是说秦大小姐貌丑体弱病秧子,谁造的谣?!后来,媒体又拍到时家太子爷把秦大小姐堵在墙角,时大佬用最狠的语气说着最怂的话:“老子错了!不要再离开我!”黑粉:佛了佛了,cp我们磕还不行嘛!-