进一步理解Linux操作系统的块设备

图2 Linux内核的总线架构

在前文《理解Linux操作系统的块设备》中我们从比较高层面(Hight Level)介绍了块设备的原理和块设备的特性。但是关于Linux操作系统块设备的实现原理可能还一知半解。本文将进一步深入的分析Linux的块设备,期望能让大家更加深入的理解块设备的实现细节

其实在Linux操作系统中可以非常方便的实现一个块设备,或者说是块设备驱动。在Linux中我们熟知的RAID、多路径和Ceph的RBD等都是这样一种块设备。其特征就是在操作系统的/dev目录下面会创建一个文件。如图1显示的不同类型的块设备,包含普通的SCSI块设备和LVM逻辑卷块设备,本质上都是块设备,差异在于在不同的业务逻辑和名称。
图1 不同类型的块设备

块设备的实现原理

在Linux操作系统中,块设备的实现其实十分简单,但也十分复杂。简单的是我们可以只用2个函数就可以创建一个块设备驱动程序;复杂的地方是块设备的总线和底层设备驱动的关系错综复杂,且块设备驱动种类繁多。
我们先看一下如何创建一个块设备,创建的方法很简单,主要是调用Linux内核的2个函数,分别是alloc_disk和add_disk。alloc_disk用于分配一个gendisk结构体的实例,而后者则是将该结构体实例注册到系统中。经过上述2步的操作,我们就可以在/dev目录下看到一个块设备。另外一个比较重要的地方是初始化gendisk结构体的请求队列,这样应用层有请求的时候会调用该队列的例程进行处理
关于创建块设备的详细实现代码本文并不打算进行深入介绍,需要了解的同学可以阅读《Linux设备驱动程序》这本书,目前最新的是第三版。这本书的第16章详细的介绍了一个基于内存的块设备驱动的实现细节,并且有配套源代码。所谓基于内存的块设备是指这个块设备的数据存储在内存中,而不是真正的诸如磁盘或者光盘的物理设备中。如下是本文从该书中截取的代码片段,核心是上文提到的2个函数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
static void setup_device(struct sbull_dev* dev, int which)
{
memset(dev, 0, sizeof(struct sbull_dev));
dev->size = nsectors * hardsect_size;
dev->data = vmalloc(dev->size);
if (dev->data == NULL)
{
printk(KERN_NOTICE "vmalloc failed. \n");
return;
}

spin_lock_init(&dev->lock);

/*初始化一个队列函数,用于处理IO请求*/
dev->queue = blk_init_queue(sbull_full_request, &dev->lock);
dev->queue->queuedata = dev;
blk_queue_logical_block_size(dev->queue, hardsect_size);

/*创建gendisk结构体,并初始化*/
dev->gd = alloc_disk(SBULL_MINORS);
dev->gd->major = sbull_major;
dev->gd->first_minor = which*SBULL_MINORS;
dev->gd->fops = &sbull_ops;
dev->gd->queue = dev->queue;
dev->gd->private_data = dev;

/*拼凑块设备的名称,为sbulla*/
snprintf( dev->gd->disk_name, 32, "sbull%c", ('a' + which));
set_capacity( dev->gd, nsectors*(hardsect_size/KERNEL_SECTOR_SIZE) );
add_disk(dev->gd); /*将块设备添加到系统内核*/

return;
}

上述块设备程序可以编译成为一个内核模块。通过insmod命令将内核模块加载后,就可以在/dev目录下看到一个名为sbulla的块设备。

brw-rw—- 1 root disk 251, 0 Jun 16 09:13 /dev/sbulla

块设备的复杂性在于其总线种类繁多,并且底层驱动类型也非常多。整个系统复杂的地方在于块设备的初始化工作。一个设备上电后,如何关联到Linux内核,并呈现给用户就变得非常复杂。如图2是本号之前介绍过的关于Linux总线相关内容的截图。块设备可能位于图中总线的任意位置。
图2 Linux内核的总线架构
由于这部分内容本身非常复杂,因此本文暂时不对设备初始化工作相关的内容细节进行介绍。后续本号单独介绍相关的内容。今天本文主要通过几个实例,以比较直观的方式介绍一下块设备与底层驱动层面的相关内容。
以SCSI块设备为例,虽然都是在/dev下面呈现一个名称为sdX的块设备,但底层驱动差异却非常巨大。我们知道SCSI设备可以通过多种方式连接到主机端:

  • SAS或者SATA接口的磁盘
  • IP-SAN,通过以太网方式连接存储设备,在主机端呈现为普通磁盘
  • FC-SAN, 通过光纤方式连接到存储设备,在主机端呈现为普通磁盘
    可以看出,虽然都基于SCSI的块设备,但底层的驱动差异却是非常之大,因此初始化的流程自然也有很大的差异。这还都是SCSI块设备,如果再将基于网络的块设备(nbd或者rbd)和软盘、光盘等块设备考虑进来,那就更加复杂了。

    Linux中形形色色的块设备

    块设备的种类非常多,我们今天就介绍几种比较典型的块设备。
    SCSI磁盘
    最为典型的当然是SCSI磁盘了,SCSI磁盘通过SAS、SATA接口或者HBA卡连接到服务器的主板,在操作系统内部呈现为一个磁盘设备。熟悉Linux操作系统的同学大概都清楚,对于SCSI磁盘在Linux系统内部是以sd为开头的名称。在本文图1中,下半部分的块设备就是SCSI磁盘。
    SCSI磁盘的具体实现在文件sd.c(driver/scsi/sd.c)中,在该文件中的sd_probe函数中通过调用alloc_disk和add_disk创建了SCSI磁盘块设备(代码太长,本文就不贴了)。这里面另外一个比较重要的地方是初始化了通用块数据结构的请求队列。完成上述初始化后,用户层面就可以访问该磁盘,并且请求会转发到这里注册的队列中进行处理。
    网络块设备
    另外一个比较典型的块设备是网络块设备(Network Block Device),这种块设备通过网络将一个远程的文件或者块设备映射为本地的一个块设备。另外,Ceph中的块存储内核客户端(RBD)也属于此类设备,只是Ceph的后端实现是基于一个分布式存储集群,更加复杂而已。
    图3 NBD原理示意

网络块设备最大的特点是建立了一个从服务端到客户端的设备映射,相对于SCSI来说这种映射又非常简单。我们以NBD为例了解一下基本原理。NBD本身是一个CS(Client-Server)架构的程序,在服务端可以将一个文件/或者磁盘映射为出来(命令为: nbd-server 12345 itworld123.txt,其中12345为端口号)。这一点其实非常类似NFS对目录的映射,差异在于NBD在客户端映射为一个磁盘,而NFS在客户端映射为一个目录树。
块设备的初始化依然是通过上述2个函数完成的,但这里的核心是初始化的请求队列例程do_nbd_request。该函数是NBD块设备的核心,其将一个块请求转换为一个网络请求,并发送给NBD服务端进行处理。网络请求的协议非常简单,通过如图4所示的一个结构体进行标识。
图4 NBD请求头
DRBD
关于DRBD本号在前面的文章中有过介绍,全称为Distributed Relicated Block Device(也就是,分布式复制块设备)。DRBD可以理解为一个基于网络的RAID1,也就是其块设备在2台服务器上同时存在,并且有配对关系。当请求写入其中一个块设备的时候,DRBD会通过内部的逻辑将数据复制到另外一个服务器上的块设备。通过这种方式增加了块设备的可用性,当其中一台服务器宕机时,另外一台服务器仍然可以对我提供服务。
图5 DRBD架构图
同NBD类似,DRBD的与其它块设备差异的地方在于其队列处理例程,在DRBD中该例程为drbd_make_request,各位可以自行分析一下该例程的具体实现。
除了上面介绍的块设备类型外,还有LVM和多路径等等很多类型的块设备。由于篇幅有限,本文暂时不做介绍,后续专门进行介绍。

块设备的请求处理

前文我们介绍中提到了块设备的伪文件系统,并且知道伪文件系统最终会调用通用块层的generic_perform_write函数。本文将接着分析一下该函数的具体实现,这样大家就对上文中提到的请求队里的例程有了更加深入的了解。下面是该函数的具体代码,本文删除了一些非关键部分的代码,保留了核心代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
void generic_make_request(struct bio *bio)
{
struct bio_list bio_list_on_stack;
bio_list_init(&bio_list_on_stack);
current->bio_list = &bio_list_on_stack;
do {
/*获取请求队列 */
struct request_queue *q = bdev_get_queue(bio->bi_bdev);
/*通过请求队列的例程进行处理 */
q->make_request_fn(q, bio);
bio = bio_list_pop(current->bio_list);
} while (bio);
current->bio_list = NULL; /* deactivate */
}

可以看到请求到通用块层后会调用请求队列的make_request_fn函数指针,而该函数最终调用我们在创建块设备时注册的例程。两者并非同一个函数,这里需要注意一点,关于这部分内容我们后续详细介绍。因为这里比较复杂,关于通用块层IO调度的内容都在这里。
通过上面的描述我们对IO请求的处理更加深入了一层,也就是从用户层面到伪文件系统层面,现在到通用块层的请求队列中了。当然,最后是到我们注册的例程中进行处理。各种不同类型块设备的差异就在这里,不同的类型块设备的处理逻辑有所不同。对于SCSI设备就是通过SCSI协议发送到Target端进行处理,而对于NBD设备则是通过网络发送到服务端进行处理。
好了,今天先到这,后续我们在介绍块设备中最为核心的特性—磁盘IO调度。