Ext2文件系统彻底分析 | 数据的磁盘布局


本文是Ext2文件系统文章的第一篇,主要介绍一下Ext2文件系统的数据在磁盘上是如何放置的,也就是磁盘数据布局。理解磁盘数据布局是理解文件系统的前提,只有理解的数据布局才能更好的了解文件系统的逻辑。

概述

Ext2文件系统将磁盘划分为大小相等的逻辑块进行管理,其默认大小是4KB(不做特殊说明,本文后续内容都采用该默认值)。文件系统逻辑块的大小在格式化的时候可以指定的。文件系统将磁盘划分为逻辑块就好像一个大厦划分为若干个房间,或者超市规划为若干货架一样。同时为了便于管理和避免访问冲突,其将若干个逻辑块组成一个大的逻辑块,称为块组(Block Group)。块组是Ext2文件系统的管理单元,块组中又包含若干管理数据(元数据)实现对块组中的逻辑块的管理,比如那些逻辑块是什么功能,那些逻辑块已经被使用等等。

图1 磁盘的块组划分

通过一个大厦对一个磁盘进行类比在形象不过了。大厦框架好比磁盘;而房间是对大厦规划后的结果,好比对磁盘的格式化;大厦每层的布局图好比元数据。我们可以通过楼层和每层的布局图很容易的找到房间。文件系统与此类似,它通过元数据查找和管理逻辑块。

如图2是某货架示意图。每层都被划分为不同的货架,每个货架都有编号,且防止固定类型的商品。比如有些放酸奶,有些放调料还有放奶粉等,并规划。我们通过示意图和房间号可以很容易找到具体位置。

图2 超市货架图

如图3是Ext2文件系统的磁盘布局图。如中间蓝色为磁盘的逻辑空间,它被划分为若干个块组。每个块组的大小相等。如果我们在格式化的时候采用的是默认参数,此时块组的大小是128MB(后面介绍为什么是128MB),每个逻辑块的大小是4KB。

整体布局

每个块组内部都有相关的元数据对该块组进行管理。如图3所示,第一个块组中的元数据包括引导块、超级块、块组描述符、预留GDT块、数据块位图、inode位图、inode表和其它数据块。后续块组中有些是对超级块的备份,有些则没有第一个块组这么完整的元数据信息,而只有数据块位图、inode位图和inode表等元数据信息。也就是说块组其实分为两种,一种是有超级块的,比较复杂的块组(如图3下面淡棕色所示),另外一种是没有超级块的,比较简单的块组(如图3上面淡绿色所示)。

图3 块组及内部细节

引导块是作为引导操作系统用的,在文件系统作为根文件系统时使用。在系统加电启动是,其内容有BIOS自动装载并执行。它包含一个启动装载程序,用于从计算机安装的操作系统中选择一个启动,还负责继续启动过程。因此Ext2文件系统把这个区域预留出来,不作为文件系统管理的磁盘区域。

超级块是文件系统起始位置,用于整个文件系统,它作为文件系统的入口,记录了整个文件系统的关键信息。而上面提到的其它元数据则只针对本块组。下面本文介绍一下每个元数据的具体作用。

超级块(SuperBlock)

超级块记录了整个文件系统的各种信息,包括逻辑块的数量、inode数量、支持的特性和维护信息等内容。为了保证整个文件系统的完整性,例如突然断电或者系统崩溃等场景,文件系统出现元数据损坏的情况,Ext2文件系统对超级块进行了备份。这样可以保证即使在第一个超级块出现损坏的情况下,仍然可以通过其它块组中的超级块进行恢复,不至于整个文件系统都不可访问。

超级块位于第1个逻辑块内,由于第一个块组预留了1KB的内容作为系统引导,因此在该块组超级块的位置在1KB偏移处,而其它备份块组中的超级块都在该块组偏移为0的地方。超级块会占用1个逻辑块的空间(实际占用空间要小于该值),也就是说块组描述符(ext2_group_desc)是在4KB偏移的地方。如下代码是超级块在磁盘存放的结构体,磁盘数据被读出来后按照该结构体的格式进行解析,其中变量__lexx表示变量是小端对齐,使用是需要转换为CPU的对齐方式。在文件系统中还有另外一个结构体super_block,这个结构体用于代码逻辑中使用。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
struct ext2_super_block {
__le32 s_inodes_count; /* 整个文件系统inode的数量 */
__le32 s_blocks_count; /* 整个文件系统逻辑块的数量 */
__le32 s_r_blocks_count; /* Reserved blocks count */
__le32 s_free_blocks_count; /* 文件系统剩余逻辑块的数量 */
__le32 s_free_inodes_count; /* 文件系统剩余inode的数量 */
__le32 s_first_data_block; /* First Data Block */
__le32 s_log_block_size; /* Block size */
__le32 s_log_frag_size; /* Fragment size */
__le32 s_blocks_per_group; /* 每一个块组中逻辑块的数量 */
__le32 s_frags_per_group; /* # Fragments per group */
__le32 s_inodes_per_group; /* 每一个块组中inode的数量 */
__le32 s_mtime; /* 挂载时间 */
__le32 s_wtime; /* 写时间 */
__le16 s_mnt_count; /* 挂载数量 */
__le16 s_max_mnt_count; /* Maximal mount count */
__le16 s_magic; /* Magic signature */
__le16 s_state; /* File system state */
__le16 s_errors; /* Behaviour when detecting errors */
__le16 s_minor_rev_level; /* minor revision level */
__le32 s_lastcheck; /* time of last check */
__le32 s_checkinterval; /* max. time between checks */
__le32 s_creator_os; /* OS */
__le32 s_rev_level; /* Revision level */
__le16 s_def_resuid; /* Default uid for reserved blocks */
__le16 s_def_resgid; /* Default gid for reserved blocks */
__le32 s_first_ino; /* 第一个非保留inode的id,ext2有一些保留的inode,比如2用于根目录 */
__le16 s_inode_size; /* inode结构体的大小 */
__le16 s_block_group_nr; /* 本超级块所位于的块组的编号 */
__le32 s_feature_compat; /* compatible feature set */
__le32 s_feature_incompat; /* incompatible feature set */
__le32 s_feature_ro_compat; /* readonly-compatible feature set */
__u8 s_uuid[16]; /* 128-bit uuid for volume */
char s_volume_name[16]; /* volume name */
char s_last_mounted[64]; /* directory where last mounted */
__le32 s_algorithm_usage_bitmap; /* For compression */
/*
* Performance hints. Directory preallocation should only
* happen if the EXT2_COMPAT_PREALLOC flag is on.
*/
__u8 s_prealloc_blocks; /* Nr of blocks to try to preallocate*/
__u8 s_prealloc_dir_blocks; /* Nr to preallocate for dirs */
__u16 s_padding1;
... ...
};

块组描述符

块组描述符,顾名思义是对该块组的描述,其中包括该块组中数据块位图的位置、inode位图位置和inode表位置等信息。另外,还包括数据块和inode的剩余情况等信息。块组描述符位于第2个逻辑块,占用一个逻辑块的空间。

1
2
3
4
5
6
7
8
9
10
11
struct ext2_group_desc
{
__le32 bg_block_bitmap; /* Blocks bitmap block */
__le32 bg_inode_bitmap; /* Inodes bitmap block */
__le32 bg_inode_table; /* Inodes table block */
__le16 bg_free_blocks_count; /* Free blocks count */
__le16 bg_free_inodes_count; /* Free inodes count */
__le16 bg_used_dirs_count; /* Directories count */
__le16 bg_pad;
__le32 bg_reserved[3];
};

数据块位图

数据块位图标识了块组中那个数据块被使用了,那个没有被使用。磁盘中每个被管理的逻辑块在该位图中用1bit进行表示,0为未使用,1为已经使用。数据块位图占用1个逻辑块,对于默认块大小(4KB)情况,可以管理40968个逻辑块,也即40968*4096=128MB的空间。当然如果格式化的时候块大小为8KB,则管理的空间会更大一些。

inode位图

inode位图与逻辑块位图类似,描述inode的使用情况。inode用于唯一标识一个文件,其为一个编号。文件系统根据这个编号查找具体的问题。在inode位图中每一位标识inode表中的个inode是否被使用。关于什么是inode表,请参考下面的描述。
默认情况inode位图占用的空间也为4KB。

inode表

inode表一列表的形式保存了文件的元数据信息,包括文件大小、扩展属性和时间等内容。由于inode结构的大小根据格式化文件系统的属性而有差异,因此该表占用的磁盘空间不定,大概若干个逻辑块的大小。关于文件名称与inode数据结构的关系是通过inode的id确定的,在文件夹中的文件存储包含文件名和inode的id信息,而通过该id可以计算出inode数据结构位于的块组位置和inode表位置。

本文简要介绍一下Ext4文件系统的磁盘布局情况,后续会更加详细的介绍每一部分的细节。