开篇:润墨网以专业的文秘视角,为您筛选了一篇Windows下基于文件特征的数据恢复算法范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
摘 要:
针对windows系统下的数据丢失,尤其是在文件系统目录信息丢失的情况下,提出一种基于文件特征的数据恢复算法。该算法通过全盘深粒度扫描磁盘扇区并根据各种类型文件的头部和尾部特征码在磁盘中匹配确定文件的起始和结束扇区,从而根据文件起始、结束扇区之间数据重建恢复此类型文件。并针对由于数据被部分覆盖或其他原因而使恢复出的Word文档无法显示其内容的情况,根据Word文档结构及字符数据在其中的编码特点提取用户最感兴趣的字符信息。实验表明该算法具有良好的性能。
ス丶词:
数据恢复;文件系统;文件特征;字符信息提取
ブ型挤掷嗪牛 TP309.3
文献标志码:A
英文标题
Data recovery algorithm based on file feature on Windows platform
び⑽淖髡呙
HU Min, YANG Jiyun, JIANG Wei
び⑽牡刂(
College of Computer Science, Chongqing University, Chongqing 400044, China
英文摘要
)
Abstract:
In order to solve the problem of data recovery in Windows system, a recovery algorithm based on file feature, especially when the directory data of the file system was lost, was presented in this paper. The algorithm identified the start and end sector of the lost file by scanning all sectors of the disk and matched them according to the head and foot feature codes of the lost files, then recovered the files by restoring the data between the start and the end sector. Concerning that the restored word documents could not be displayed as a result of their partial data being covered or some other reasons, the users most interested characters in terms of the word document structure and coding rules of the characters were extracted. The experimental results show that the proposed algorithm has good performance.
英文关键词
Key words:
data recovery; file system; file feature; character information extraction
0 引言
随着信息技术的发展,人们在享受其带来方便的同时,也发现了数据丢失所带来的风险和灾难。如何在数据丢失时快速恢复出重要数据,最大限度地挽回损失成为人们所关注的焦点,也是科研人员研究的热点[1-4]。目前数据恢复技术已经广泛使用[5-6],但出现的文献[7-8]和数据恢复软件中采用的都是基于文件系统目录信息的数据恢复方法,即根据FAT文件系统[9]中的FDT、FAT等记录文件各种信息(文件名、文件大小、起始簇等)的目录数据来恢复丢失的文件,在NTFS文件系统[10]中则是根据MFT等目录信息来恢复文件,这种方法在磁盘格式化或者由于病毒破坏等其他原因导致文件系统目录信息(FDT、MFT等)完全丢失的情况下将无法恢复出数据,因此针对这种情况,本文提出了一种Windows平台下在FAT和NTFS文件系统中通用的基于文件特征的数据恢复算法(Algorithm Based On File Features, ABFF)。即使在磁盘格式化或者其他原因导致文件系统目录信息完全丢失的情况下,该算法也能根据文件特征扫描恢复出文件,并针对Word文档由于文件头损坏或在磁盘中不连续存放时,恢复出来的文件无法正常打开显示其内容的情况,对文件中用户最感兴趣的字符信息进行提取,最大限度恢复数据。通过实验对比分析,本算法具有良好的性能,在扫描效率和数据恢复成功率上较现在流行的数据恢复软件具有一定的优势。
1 基于文件特征的数据恢复
在人们日常计算机使用中,常常遭受计算机病毒和木马的侵入,有些病毒和木马具有破坏磁盘文件系统结构,甚至往磁盘中写入垃圾数据的功能,因此常常导致磁盘文件系统中的MBR、DBR、FAT、FDT以及MFT等重要目录信息被删除或被覆盖,包括操作系统文件都被覆盖了,造成用户数据丢失。文件系统的目录数据损坏后,无法确定哪个数据簇是属于哪个文件,因此基于目录信息的方法在此情况下无法恢复数据。但是磁盘中各种类型的文件都有一定的数据特征,可以根据不同文件类型的文件头(Header)和文件脚(Footer)特征[11]从文件系统数据区中直接扫描恢复文件数据。如图1所示,以PNG文件为例说明特征文件在磁盘中存储形式及分布。基于文件特征的数据恢复需要研究各种系统软件和应用软件所生成的不同类型文件的文件内容的数据特征,通常是文件头部和尾部的数据特征。
图片
图1 PNG文件在磁盘中分布
1.1 特征文件恢复原理
在基于文件特征的恢复方法中,采用文件特征与全盘深度扫描结合的方法,即当FAT32和NTFS文件系统中存储结构目录信息完全丢失时,根据不同类型文件的Header和Footer特征以扇区为单位在磁盘中深度扫描,首先在每个扇区中搜索匹配文件的Header特征,直到发现与Header匹配的扇区,这样就找到了文件的开始位置。然后再以扇区为单位扫描并根据文件的尾部特征来圈定文件在磁盘中的结束位置,并将文件头和文件脚之间的数据保存成特定文件。这种方法的特点是扫描完全,只要数据区中存在特征文件,必定会被扫描出来,下面以Office文档的恢复为例。
Word文档在磁盘中的实际构成总是以“00000000 D0 CF 11 E0 A1 B1 1A E1 00 00 00 00 00 00 00 00”为文件头部特征的,扫描到文件头之后,继续按扇区查找其文件脚,发现它的二进制表示的文件脚(Footer),如图2所示。
图片
图2 Word尾部特征
以上是以Word文件为例说明,而大多数文件都有特征标志,只要按照特征在磁盘扇区中扫描就可扫描出特征文件。
图片
分区
图3 扫描特征文件流程
当然,这样恢复的文件由于没有先前的目录信息,就不能恢复出文件名,但是只要数据没被覆盖,就可以对文件进行完全恢复。影响基于文件特征数据恢复方法的效果主要有两个