高并发访问量下网络I/O模型选择的研究(全文)

开篇：润墨网以专业的文秘视角，为您筛选了一篇高并发访问量下网络I/O模型选择的研究范文，如需获取更多写作素材，在线客服老师一对一协助。欢迎您的阅读与分享！

摘要：在大量并发访问时，如何选择网络IO模型将是提高服务器性能的关键。该文通过对Linux环境下几种网络I/O模型的详细分析和研究，提出了在不同场景下选择不同网络IO模型的方案。

关键词：Linux系统；网络I/O；并发

中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2016）19-0028-02

1 概述

目前我们网络所面临的依然是高并发的问题，就像某些电商网站双11时的情况，瞬间的并发量是惊人的，当然我们会有很多种方法去解决这个问题，本文我们谈论的是单台服务器，如何提高自己对并发请求的处理能力。要想解决这个问题，我们需要先理清楚Unix和类Unix系统的I/O模型。

IO也就是输入输出即读写操作，在操作系统内部逻辑上一般会分两个空间（实际是内存映射）：用户空间和内核空间。为了保证数据的安全性，只有内核才有权限从物理存储（或网络数据）上直接进行读写操作，而我们的服务进程都是处于用户空间的，所以说一次IO操作就被分为了两个阶段：1）内核从磁盘上读取数据到内核空间；2）复制内核空间中的数据到用户空间。了解这个之后我们就可以讲解下5种不同的IO模型。

2 IO模型原理详述

2.1阻塞I/O（Blocking I/O）

阻塞IO是最早期也是原理最简单的I/O模式，应用进程发出一个I/O请求，该I/O操作不能立刻完成，它需要等待内核将数据读取出来，再等待从内核空间中将数据拷贝出来，这两个环节进行完之前，应用进程都处于阻塞状态。

2.2非阻塞I/O（Non-blocking I/O）

应用进程向内核发送一个I/O请求，如果没有可用数据，内核会向用户返回一个错误值，用户会在将来的一个合适的时候再次进行请求操作，这样就避免了进程的阻塞，这种往返的操作也被称为轮询。这里有一点需要注意的是，在Copy data from kernel user的时候进程依然是被阻塞的，之所以叫做非阻塞是因为只有在内核读写数据的阶段（上文的第一阶段）才叫做IO操作，所以在需要有大量进程并发请求时非阻塞IO模式并不比阻塞IO模式效率高，甚至更加浪费资源。

2.3多路复用I/O（I/O Multiplexing）

多路复用IO在Linux系统中一般只用于网络IO，非阻塞IO中的用户进程轮训会消耗大量的系统资源，多路复用的提出就是将这种轮训方式通过select或poll系统调用来完成，使用select或poll 操作，进程可在多个套接字上等待网络事件，当其中某个套接字发生某个网络事件时，用户可通过查看网络事件对该套接字进行I/O 操作。但当所有套接字都没有网络事件发生时，进程还会阻塞起来。所以，多路复用I/O 模型本质上还是基于阻塞I/O 的。

2.4信号驱动式I/O（Single-driven I/O）

信号驱动式IO也有叫事件驱动式IO，这种IO具有以上三种IO都不具有的优势，即当用户进程发起IO请求后即可离开，当内核将数据准备好后，将想用户进程发送一个信号以通知其来拷贝数据，第一阶段用户进程时完全的非阻塞的也不需要进行轮训，只有在第二阶段用户进程才是阻塞状态。但在多进程或多线程服务器中，信号驱动I/O 存在一定问题，即信号在产生和传递到目的进程之间，状态标志可能会发生变化。

2.5异步I/O（Asynchronous I/O）

用户进程提出IO请求后即可做其他的操作，当数据准备好之后，内核会直接通知用户进程I/O操作的结果。这种机制容易和信号驱动I/O混淆，两者的不同是：异步I/O 返回时，I/O 操作已经完成，返回的是I/O 操作的结果；信号驱动I/O 只是通知进程可以开始进行I/O 操作，进程得到这个信号后才开始I/O 操作。

3 五种不同I/O模型的比较和适用场景

3.1 阻塞模型

客户端连接至服务器端的每一个专用进程，服务器端的进程处理这些连接数据。如果有大量用户请求连接，服务器端就建立大量线程或者进程，线程或进程间的切换会使系统性能大大下降。这种模型适合服务器负载不大或并发数不多的情况。

3.2 非阻塞I/O

此种模式主要应用在单进程服务器中。当服务器进程接受到请求后，该进程会收到内核返回的一个错误值，此进程可以去做其他操作，单该进程并不知道何时再次进行I/O 请求操作，所以只能通过轮询的方法查询连接状态，但是轮询操作会造成CPU 的浪费。

3.3 多路复用I/O

此模型是对上诉两种模型的改进，进程可在多个描述符上等待网络I/O 事件，担当没有任何网络事件发生时，进程会进入阻塞状态。这种模型一般使用select/poll进行操作，进程在多个socket上进行监听，如果有IO事件发生，CPU需要扫描所有活动链接，已处理有数据传输的链接，并且单个进程可监视的fd数量被限制，即能监听端口的大小有限。因此，该模型适合多并发连接的情况，且这些并发连接大多要有IO事件发生。

3.4 信号驱动I/O

信号驱动I/O模型用得比较少，主要使用在UDP套接字上，TCP套接字几乎不使用。这是因为，在UDP编程中使用信号驱动I/O，此时SIGIO信号产生于下面两种情况：1.套接字收到一个数据报。2.套接字上发生了异步错误。因此，当应用因为收到一个UDP数据报而产生的SIGIO时，要么可以调用recvfrom读取该数据报，要么得到一个异步错误。而对于TCP编程，信号驱动I/O就没有太大意义了，因为对于流式套接字而言，有很多情况都可以导致SIGIO产生，而应用又无法区分是什么具体情况导致该信号产生的。例如： 1）监听套接字完成了一个连接请求。 2）收到了一个断连请求。3）断连操作完成。4）套接字收到数据。5）有数据从套接字发出。对于TCP下应用信号驱动I/O模型，我们应该考虑只对“监听TCPsocket”使用SIGIO，因为对于“监听TCPsocket”产生SIGIO的唯一条件是新连接完成。也就是说，只有TCP下只有用作listen的端口，才考虑使用信号驱动I/O模型。

3.5 异步I/O

Linux下的异步I/O模型使用的非常少，通常认为Linux下没有比较完美的异步文件I/O方案。目前比较出名的有Glibc的AIO与Kernel Native AIO，当有大量异步IO请求时，将会产生大量用户级线程，这些线程的切换将会极大的影响系统性能，所以AIO适用于并发访问量并不大的应用。

3.6 epoll 模型

是针对poll模型的改进。它没有最大并发连接的限制，能打开的FD的上限远大于1024（1G的内存上能监听约10万个端口）；不采用轮询的方式，不会随着FD数目的增加效率下降。只有活跃可用的FD才会调用callback函数；即Epoll最大的优点就在于它只管你“活跃”的连接，而跟连接总数无关，因此在实际的网络环境中，Epoll的效率就会远远高于select和poll。并且epoll利用mmap（）文件映射内存加速与内核空间的消息传递；即epoll使用mmap减少复制开销。

4 结束语

从上述的IO模型中我们发现在现如今常见的大量活跃并发的场景中，只有epoll模型的效率是最高的，只有在一种极其极端的条件下，即所有活动链接都有数据传输时select/poll模型比epoll模型效率稍高。epoll 模型通过callback 方法实现系统异步通知，只返回活跃的进程，减少了轮训的时间，并通过mmap节省了复制的开销。

参考文献：

[1] Gary.wrigh W.Richard Stevens.TCP/IP详解（卷1）：协议[M].北京：机械工业出版社，2007.

[2] 滕昱.2.6 内核中提高I/O 性能的新方法――epo1l[z].

（2005―03～30）.http：//mechgouki.spaces.1ive，com/blog/PersonalSpace.aspx.

[3] Gary.wrigh W.Richard Stevens.TCP/IP详解（卷2）：协议[M].北京：机械工业出版社，2010.

高并发访问量下网络I/O模型选择的研究

优秀范文