当前位置:主页 > 国际 > 深度解读 > 正文
在老磁盘中“淘宝”
来源:     作者:      2016-10-08 16:55       
摘要:当美国加州斯坦福大学档案管理员收到已故古生物学家Stephen Jay Gould的论文集时,他们立刻发现了一个问题。许多论文实际上被保存在各类计算机磁盘上,而后者均是早已淘汰的形式。



图片来源:《自然》


当美国加州斯坦福大学档案管理员收到已故古生物学家Stephen Jay Gould的论文集时,他们立刻发现了一个问题。许多论文实际上被保存在各类计算机磁盘上,而后者均是早已淘汰的形式。


“这是一个你能想象的庞大集合,他在写作时使用了许多早期的文字处理技术,很多磁盘的格式并不相同。”斯坦福大学图书馆博恩数字/取证实验室服务经理Michael Olson说。


该校档案管理员付出了巨大的劳动量才将Gould的论文整理妥当:首先寻找能读取这些老旧磁盘的设备,破译读取的内容。“例如,找出他使用了哪种文字处理软件十分困难。”Olson说。


实际上,Gould的论文折射了这样一个迫在眉睫的问题:个人计算机革命发生40年后,第一代电脑使用者都已退休或去世。档案管理员如何恢复和保存他们遗留下的资料?


“全世界的人都曾将信息保存在磁盘中,而这些介质正随着技术更迭越来越难读取。”北卡罗来纳大学信息和图书馆学院研究员Christopher Lee说。“这包括磁盘、压缩盘、CD、DVD、硬盘驱动器等各种媒介。”很多文档仅被保存在早已淘汰的计算机硬件中,并且所有这些都在经历物理性退化,最终无法被读取。


现在,很多图书馆、档案馆和博物馆的仓库里保存在大量的此类材料,它们希望一旦有需要,有人将能找到读取方法。越来越多的档案管理员正从数字取证领域寻找灵感:从电脑驱动器、智能手机、笔记本电脑甚至全球定位系统设备中提取不法行为证据的技术。“事实证明,执法和计算机安全人员能处理数字媒体数据稳定和恢复的问题。”马里兰大学Matthew Kirschenbaum说。而且,他们的许多解决方案能被档案管理员直接使用。


例如,在执行过程中,最重要的事情之一就是以原始形式保存材料。这非常困难:几乎所有在电脑上做的事都会留下模糊的数字痕迹。因此,数字取证专家开发出“磁盘印象”技术,能从未使用和隐藏的磁盘空间中复制所有信息。然后,他们能保存下完整的原始证据,同时还能在更好的备份上进行取证分析。


而那些破译收藏文本的机构也有同样需要,尽管它们的目的是为未来研究人员保留资料的原始版本。Lee 表示,8到10年前,为司法审判制作数据的副本是个相对边缘的理念。“目前,这在图书馆和档案机构已经十分普遍。”


但对于档案管理员而言,磁盘映像通常是由商业软件包生成的,例如司法工具包和EnCase。由于这些软件包是为刑事侦查员设计的,因此它们包含档案雕刻、密码破译、访问加密文件、高级搜索和生成用于法院审判的报告等,而这些对于档案管理过程而言并不重要。另外,这些软件费用不低,使得档案管理等机构本就拮据的经费更捉襟见肘。


因此,2011年,Lee和同事启动了BitCurator。该平台专为档案领域设计,并且是个开放资源,能免费下载。“它是第三方开源工具和我们自己工作的结合。”参与该项目的北卡罗来纳大学信息和图书馆学院研究科学家Kam Woods说。Lee预计目前有数十个机构经常使用该工具包数百个机构偶尔会使用。


BitCurator不仅具有磁盘映像功能,还有大量刑侦人员不需要的其他功能。例如编辑功能:在出版之前删除机密材料。“对于档案或图书馆人员而言,你将不希望某人的健康档案被公布。”Olson说。因此,BitCurator具备若干访问控制方法,而刑侦领域并不需要。


BitCurator的另一个特点是能读取早已过时的磁盘。对于深陷旧磁盘甚至磁带“海洋”的档案管理员而言,这必不可少。Lee表示,尽管数字取证人员通常设计更新的生成系统,但他们的技术对于数据恢复非常有用。“即便不知道文档系统或无法读取它,你也能采用取证技术制成一个安全的数据副本。”他说。


此外,Olson指出,这个基于取证技术的方法还有一些超出技术考量的优点。例如,对于Gould的档案,“你能从不同的文本信息处理系统中获得时间标记,以找出他在某些时间实际写了什么、写作顺序和编辑方法等。”该技术也用于档案以外的领域。Olson实验室正帮助越来越多的大学教员和学生阅读已经淘汰的计算机系统保存的资料。


目前,科学数据正在以飞快的速度丧失,有研究显示,上世纪90年代初出版的生态学论文,仅有20%的数据仍可用。该研究合作者Tim Vines表示,对于科学家而言,保存数据的最好方式是将它们上传到图书馆档案库或在线开放资料库。


“放在专门保存数据的机构的手中比搁在书架上更好。”他说。(张章)