当前位置:首页 > 问答 > 正文

磁带数据库到底是个啥玩意儿,怎么用来存数据的呢?

说到“磁带数据库”,这名字听起来就挺复古的,像是上个世纪的产物,没错,它确实有点“老古董”的味道,但可别小瞧它,在当今这个数据爆炸的时代,它不但没有消失,反而以一种新的姿态扮演着极其重要的角色。磁带数据库并不是指一个能像我们平时用的软件(比如MySQL、Excel)那样可以随时快速查询、修改的“活”数据库,而更像是一个专门用于长期、海量、低成本保存“数据备份”或“数据档案”的仓库。

要理解它怎么存数据,咱们得先抛开对“数据库”这三个字的现代印象,我们平时用的数据库,数据都存在电脑的硬盘或者高速闪存(SSD)里,为的就是一个“快”字,你点一下鼠标,数据毫秒级就出来了,但磁带数据库的核心是“磁带”,这就决定了它的使用逻辑完全不同。

磁带这玩意儿是怎么工作的?

你可以把它想象成一盘非常巨大、非常高级的录音带或者录像带,存数据的过程,就跟以前用录音机录音差不多:

磁带数据库到底是个啥玩意儿,怎么用来存数据的呢?

  1. 写入数据:有一个叫做“磁带机”的设备,相当于一台超级录音机,当需要备份数据时,计算机会把要保存的数据打包成一股数据流,发送给磁带机,磁带机里有一卷空白的磁带(现在通常是像小盒子一样的磁带匣),有一个磁头会把这些由0和1组成的数字信号,“刻录”到缓慢移动的磁带表面上,这个过程是顺序的,意思就是数据得一个接一个地写上去,不能像在硬盘里那样随便找个空位就存。
  2. 读取数据:当以后需要找回这些数据时,比如发生了灾难,原来的服务器硬盘全坏了,就需要从磁带里恢复,这时,再把那盘磁带放回磁带机,机器会像快进或倒带一样,找到当初存放那段数据的大概位置,然后磁头再顺序地把磁带上的磁信号读出来,转换回数字数据,传回计算机。

那它到底“数据库”在哪儿?为啥现在还用它?

关键就在于“冷数据”或“冰数据”的概念,根据IBM等存储厂商的划分(来源参考IBM对存储分层的论述),数据可以分为热、温、冷、冰几个层级:

磁带数据库到底是个啥玩意儿,怎么用来存数据的呢?

  • 热数据:天天要用,随时要查的,比如你正在编辑的文档、网站的交易记录,这些必须放在最快的SSD上。
  • 温数据:不常用,但偶尔需要分析一下,可能放在速度慢点、便宜点的大容量硬盘上。
  • 冷数据冰数据:可能一年甚至几年才需要访问一次,但法律规定必须保存,或者极具科研价值,舍不得删,比如医院的原始影像资料、天文望远镜拍下的海量星空照片、电影公司的电影母片、银行的多年交易记录备份等。

对于这些“冷”到“冰”的数据,用昂贵的SSD或硬盘常年供电保存,电费和维护成本太高了,就像为了保存一封十年后才可能拆开看的信,而常年租用一个带空调的保险箱,不划算。

这时候,磁带数据库的优势就体现出来了(来源基于长期存储解决方案的行业实践总结):

  1. 成本极低:一盘LTO(线性磁带开放技术)磁带的容量现在可以轻松达到几十TB(数万GB),但单盘成本远低于同等容量的硬盘,更重要的是,磁带不用电!写满数据后,从磁带机里拿出来,往保险柜或专门的磁带库房里一放,除了占点地方,几乎不产生任何费用。
  2. 寿命超长:在合适的温湿度环境下,优质磁带的数据可以稳定保存30年到50年,远比硬盘的寿命要长,硬盘放那儿不通电,可能过几年就由于机械或电子元件老化读不出来了。
  3. 安全性高:磁带是离线存储的,也就是说,当它不在磁带机里时,是完全物理隔绝于网络的,什么黑客病毒、网络攻击,根本碰不到它,这为数据安全提供了终极保障,这也是为什么很多核心机构的“容灾备份”方案里,总有一份是要做到磁带上的。

“磁带数据库”更像是一个庞大的、自动化的磁带仓库管理系统,在现代数据中心,你可能会看到一个巨大的、像机器人仓库一样的柜子,里面密密麻麻放着成千上万盘磁带,这就是“磁带库”,需要备份时,机械手会自动找到空磁带,塞进磁带机写入;需要恢复时,机械手又能根据索引,精准地找到需要的那一盘,塞进磁带机读取,这套系统管理着这些磁带的元数据(比如哪盘磁带存了什么内容、放在库房的哪个位置),从而构成了一个能管理海量离线数据的“数据库”。

磁带数据库不是让你用来做实时计算的,它是数字世界的“诺亚方舟”或“国家档案馆”,它的使命不是“快”,而是“稳”、“省”和“久”,在数据已经成为新时代石油的今天,如何低成本、高可靠地保存这些可能决定未来的宝贵资产,老当益壮的磁带技术,依然是一个无法被替代的关键答案。