传输层——TCP和UDP

2020-10-12

计算机网络

字数统计: 7.2k | 阅读时长≈ 25 分钟

传输协议概述

进程之间的通信

当网络的边缘部分中的两个主机使用网络的核心部分的功能进行端到端的通信时，只有位于网络边缘部分的主机的协议栈才有传输，而网络核心部分中的路由器在转发分组时都只用到下三层的功能。

端系统之间通信的含义

从IP层来说，通信的两端是两台主机。IP 数据报的首部明确的标志了这两台主机的 IP 地址。但“两台主机之间的通信”这种说法还不够清楚。IP 协议虽然能把分组送到目的主机，但是这个分组还停留在主机的网络层而没有交付主机中的应用进程。

从传输的角度看，通信的真正端点并不是主机而是主机中的进程。也就是说，端到端的通信是应用进程之间的通信。

“主机A和主机B进行通信”实际上是指：“运行在主机A上的某个程序和运行在主机B上的另一个程序进行通信”。即“主机 A 的某个进程和主机 B 上的另一个进程进行通信”。简称为“计算机之间通信”。

在一台主机中经常有多个应用进程同时分别和另一台主机中的多个应用进程通信。

网络层和传输的区别

网络层是为主机之间提供逻辑通信；传输为应用进程之间提供端到端的逻辑通信。

上图中，主机 A 的应用进程 AP₁ 和主机 B 的应用进程 AP₃ 通信，应用进程 AP₂ 和应用进程 AP₄ 通信。

基于端口的复用和分用功能

传输有一个很重要的功能：复用和分用。复用是指在发送方不同的应用进程都可以使用同一个传输协议传送数据；分用是指接收方的传输在剥去报文的首部后能够把这些数据正确交付目的应用进程。

两种不同的运输协议

传输向高层用户屏蔽了下面网络核心的细节，它使应用进程看见的就是好像在两个传输实体之间有一条端到端的逻辑通信信道。但这条逻辑通信信道对上层的表现却因传输使用的不同协议而有很大的差别。

当传输采用面向连接的 TCP 协议时，尽管下面的网络是不可靠的（只提供尽最大努力服务），但这种逻辑通信信道就相当于一条全双工的可靠信道。

当传输采用无连接的 UDP 协议时，这种逻辑通信信道是一条不可靠信道。

传输的两个主要协议

TCP/IP 的传输有两个主要协议：

用户数据报协议 UDP(User Datagram Protocol)
传输控制协议 TCP(Transmission Control Protocol)

TCP 与 UDP

两个对等运输实体在通信时传送的数据单位叫作运输协议数据单元 TPDU(Transport Protocol Data Unit)。

TCP 传送的数据单位协议是 TCP 报文段。
UDP 传送的数据单位协议是 UDP 报文或用户数据报。

使用 UDP 和 TCP 的典型应用和应用层协议

还要强调两点：

传输的 UDP 用户数据报与网际层的IP数据报有很大区别。
IP 数据报要经过互连网中许多路由器的存储转发。
UDP 用户数据报是在传输的端到端抽象的逻辑信道中传送的。
TCP 报文段是在传输抽象的端到端逻辑信道中传送，这种信道是可靠的全双工信道。但这样的信道却不知道究竟经过了哪些路由器，而这些路由器也根本不知道上面的传输是否建立了 TCP 连接。

传输的端口

运行在计算机中的进程是用进程标识符来标志的。

但运行在应用层的各种应用进程却不应当让计算机操作系统指派它的进程标识符。这是因为在互联网上使用的计算机的操作系统种类很多，而不同的操作系统又使用不同格式的进程标识符。

为了使运行不同操作系统的计算机的应用进程能够互相通信，就必须用统一的方法对 TCP/IP 体系的应用进程进行标志。

由于进程的创建和撤销都是动态的，发送方几乎无法识别其他机器上的进程。

有时我们会改换接收报文的进程，但并不需要通知所有发送方。

我们往往需要利用目的主机提供的功能来识别终点，而不需要知道实现这个功能的进程。

解决这个问题的方法就是在传输使用协议端口号(protocol port number)，或通常简称为端口(port)。

虽然通信的终点是应用进程，但我们可以把端口想象是通信的终点，因为我们只要把要传送的报文交到目的主机的某一个合适的目的端口，剩下的工作（即最后交付目的进程）就由 TCP 来完成。

软件端口与硬件端口

在协议栈层间的抽象的协议端口是软件端口。

路由器或交换机上的端口是硬件端口。

硬件端口是不同硬件设备进行交互的接口，而软件端口是应用层的各种协议进程与运输实体进行层间交互的一种地址。

TCP/IP 传输端口

端口用一个 16 位端口号进行标志，允许有 65535 个不同的端口号。

端口号只具有本地意义，即端口号只是为了标志本计算机应用层中的各进程。在互联网中，不同计算机的相同端口号是没有联系的。

由此可见，两个计算机中的进程要互相通信，不仅必须知道对方的端口号（为了找到对方计算机中的应用进程），而且还要知道对方的 IP 地址（为了找到对方的计算机）。

两大类端口

计算机通信是采用客户——服务器方式，客户在发起通信请求时，必须先知道对方服务器的 IP 地址和端口号。因此传输的端口号分为两大类：

服务器端使用的端口号，又分为两类：

熟知端口，数值一般为 0 ~ 1023。
登记端口号，数值为 1024 ~ 49151，为没有熟知端口号的应用程序使用的。使用这个范围的端口号必须在 IANA 登记，以防止重复。

客户端使用的端口号，又称为短暂端口号，数值为 49152 ~ 65535，留给客户进程选择暂时使用。
当服务器进程收到客户进程的报文时，就知道了客户进程所使用的动态端口号。通信结束后，这个端口号可供其他客户进程以后使用。

常用的熟知端口

TCP 和 UDP 可以使用同一个端口吗？

可以的。

在数据链路层中，通过 MAC 地址来寻找局域网中的主机。在网际层中，通过 IP 地址来寻找网络中互连的主机或路由器。在传输层中，需要通过端口进行寻址，来识别同一计算机中同时通信的不同应用程序。

所以，传输层的「端口号」的作用，是为了区分同一个主机上不同应用程序的数据包。

传输层有两个传输协议分别是 TCP 和 UDP，在内核中是两个完全独立的软件模块。

当主机收到数据包后，可以在 IP 包头的「协议号」字段知道该数据包是 TCP/UDP，所以可以根据这个信息确定送给哪个模块（TCP/UDP）处理，送给 TCP/UDP 模块的报文根据「端口号」确定送给哪个应用程序处理。

因此，TCP/UDP 各自的端口号也相互独立，如 TCP 有一个 80 号端口，UDP 也可以有一个 80 号端口，二者并不冲突。

TCP

TCP 的特点

TCP 是面向连接的传输层协议。
每一条 TCP 连接只能有两个端点，每一条 TCP 连接只能是点对点的（一对一）。
TCP 提供可靠交付的服务。通过TCP连接传送的数据，无差错、不丢失、不重复，并且按序到达。
TCP 提供全双工通信。
面向字节流。

总结一句话：TCP 是⾯向连接的、可靠的、基于字节流的传输层通信协议。

全双工通信是指 TCP 允许通信双方的应用进程在任何时候都能发送数据。TCP 连接的两端都设有发送缓存和接收缓存，用来临时存放双向通信的数据。在发送时，应用程序在把数据传送给TCP的缓存后，就可以做自己的事，而 TCP 在合适的时候把数据发送出去。在接收时，TCP 把收到的数据放入缓存，上层的应用进程在合适的时候读取缓存中的数据。

TCP 面向流的概念

TCP 中的“流”指的是流入或流出进程的字节序列。

“面向字节流”的含义是：虽然应用程序和 TCP 的交互是一次一个数据块(大小不等)，但 TCP 把应用程序交下来的数据仅仅看成是一连串的无结构的字节流。TCP 并不知道所传送的字节流的含义。TCP 不保证接收方应用程序所收到的数据块和发送方应用程序所发出的数据块具有对应大小的关系(例如，发送方应用程序交给发送方的 TCP 共 10 个数据块，但接收方的 TCP 可能只用了 4 个数据块就把收到的字节流交付上层的应用程序)。但接收方应用程序收到的字节流必须和发送方应用程序发出的字节流完全一样。当然，接收方的应用程序必须有能力识别收到的字节流，把它还原成有意义的应用层数据。

TCP 连接是一条虚连接而不是一条真正的物理连接。

TCP 对应用进程一次把多长的报文发送到 TCP 的缓存中是不关心的。

TCP 根据对方给出的窗口值和当前网络拥塞的程度来决定一个报文段应包含多少个字节（UDP 发送的报文长度是应用进程给出的）。

TCP 可把太长的数据块划分短一些再传送。

TCP 也可等待积累有足够多的字节后再构成报文段发送出去。

TCP 的连接

TCP 把连接作为最基本的抽象。每一条 TCP 连接有两个端点。

TCP 连接的端点不是主机，不是主机的 IP 地址，不是应用进程，也不是传输的协议端口。TCP 连接的端点叫做套接字(socket)。

端口号拼接到 IP 地址即构成了套接字。套接字socket = (IP地址:端口号)

TCP 连接，IP 地址，套接字

TCP 连接就是由协议软件所提供的一种抽象。

TCP 连接的端点是个很抽象的套接字，即（IP 地址:端口号）。

同一个 IP 地址可以有多个不同的 TCP 连接。

同一个端口号也可以出现在多个不同的 TCP 连接中。

为什么需要 TCP 协议？

IP 层是不可靠的，它不保证网络包的交付、不保证网络包的按序交付、也不保证网络包中的数据的完整性。如果需要保障网络数据包的可靠性，那么就需要由上层（传输层）的 TCP 协议来负责。

如何唯⼀确定⼀个 TCP 连接？

TCP 四元组可以唯⼀的确定⼀个连接，四元组包括如下：

源地址
源端口
⽬的地址
⽬的端口

源地址和⽬的地址的字段（32位）是在 IP 头部中，作用是通过 IP 协议发送报⽂给对方主机。

源端口和⽬的端口的字段（16位）是在 TCP 头部中，作用是告诉 TCP 协议应该把报⽂发给哪个进程。

TCP 报文段的首部格式

TCP 虽然是面向字节流的，但 TCP 传送的数据单元却是报文段。

一个 TCP 报文段分为首部和数据两部分，TCP 的全部功能都体现在它首部中各字段的作用。

TCP 报文段首部的前 20 个字节是固定的，后面有4n字节是根据需要而增加的选项 (n是整数)。因此 TCP 首部的最小长度是 20 字节。

首部固定部分各字段含义

源端口和目的端口：各占 2 字节。端口是传输与应用层的服务接口。传输的复用和分用功能都要通过端口才能实现。
序号：占 4 字节。TCP 连接中传送的数据流中的每一个字节都编上一个序号。序号字段的值则指的是本报文段所发送的数据的第一个字节的序号。序号增加到2³²-1后，下一个序号就又回到 0。也就是说，序号使用 mod 2³²运算。在一个 TCP 连接中传送的字节流中的每一个字节都按顺序编号。整个要传送的字节流的起始序号必须在连接建立时设置。
确认号：占 4 字节，是期望收到对方的下一个报文段的数据的第一个字节的序号。
数据偏移（即首部长度）：占 4 位，它指出 TCP 报文段的数据起始处距离 TCP 报文段的起始处有多远。由于首部中还有长度不确定的选项字段，因此数据偏移字段是必要的。“数据偏移”的单位是 32 位字（以 4 字节为计算单位）。由于 4 位二进制数能够表示的最大十进制数字是 15，因此数据偏移的最大值是 60 字节，这也是 TCP 首部的最大长度(即选项长度不能超过 40 字节)。
保留字段：占 6 位，保留为今后使用，但目前应置为 0。
紧急 URG (URGent)：当URG = 1时，表明紧急指针字段有效。它告诉系统此报文段中有紧急数据，应尽快传送(相当于高优先级的数据)。当URG = 1时，发送应用进程就告诉发送方的 TCP 有紧急数据要传送。于是发送方 TCP 就把紧急数据插入到本报文段数据的最前面，而在紧急数据后面的数据仍是普通数据。这时要与首部中紧急指针字段配合使用。
确认ACK(ACKnowledgment)：只有当ACK=1时确认号字段才有效。当ACK=0时，确认号无效。TCP 规定，在连接建立后所有传送的报文段都必须把ACK置 1。
推送PSH(PuSH)：当两个应用进程进行交互式的通信时，有时在一端的应用进程希望在键入一个命令后立即就能够收到对方的响应。在这种情况下，TCP 就可以使用推送操作。这时，发送方 TCP 把 PSH 置 1,并立即创建一个报文段发送出去。接收方 TCP 收到PSH = 1的报文段，就尽快地交付接收应用进程，而不再等到整个缓存都填满了后再向上交付。虽然应用程序可以选择推送操作，但推送操作很少使用。
复位RST(ReSeT)：当RST=1时，表明 TCP 连接中出现严重差错（如由于主机崩溃或其他原因），必须释放连接，然后再重新建立运输连接。RST置 1 还用来拒绝一个非法的报文段或拒绝打开一个连接。RST也可称为重建位或重置位。
同步SYN(SYNchronization)：SYN=1表示这是一个连接请求或连接接受报文。当SYN=1而ACK=0时，表明这是一个连接请求报文段。对方若同意建立连接，则应在响应的报文段中使SYN=1和ACK=1。
终止FIN：用来释放一个连接。FIN=1表明此报文段的发送端的数据已发送完毕，并要求释放传输连接。
窗口：占 2 字节，用来让对方设置发送窗口的依据，单位为字节。窗口字段明确指出了现在允许对方发送的数据量。窗口值经常在动态变化着。
检验和：占 2 字节。检验和字段检验的范围包括首部和数据这两部分。在计算检验和时，要在 TCP 报文段的前面加上 12 字节的伪首部。在计算检验和时，临时把 12 字节的“伪首部”和 TCP 报文段连接在一起。伪首部仅仅是为了计算检验和。伪首部的格式与 UDP 的伪首部一样。但应把伪首部第 4 个字段中的 17 改为 6(TCP 的协议号是 6)，把第 5 字段中的 UDP 长度改为 TCP 长度。接收方收到此报文段后，仍要加上这个伪首部来计算检验和。
紧急指针：占 16 位，紧急指针仅在URG = 1时才有意义，指出在本报文段中紧急数据共有多少个字节（紧急数据放在本报文段数据的最前面）。即使窗口为零时也可发送紧急数据。
选项字段：长度可变。最长可达 40 字节。当没有使用“选项“时，TCP 的首部长度是 20 字节。
填充：这是为了使整个首部长度是 4 字节的整数倍。

TCP 最初只规定了一种选项，即最大报文段长度 MSS。MSS(Maximum Segment Size)是 TCP 报文段中的数据字段的最大长度。数据字段加上 TCP 首部才等于整个的 TCP 报文段。所以，MSS是“TCP 报文段长度减去 TCP 首部长度”。

MSS 告诉对方 TCP：“我的缓存所能接收的报文段的数据字段的最大长度是 MSS 个字节。”

为什么要规定一个最大报文段长度 MSS 呢？这并不是考虑接收方的接收缓存可能放不下 TCP 报文段中的数据。实际上，MSS 与接收窗口值没有关系。我们知道，TCP 报文段的数据部分，至少要加上 40 字节的首部（TCP 首部 20 字节和 IP 首部 20 字节，这里都还没有考虑首部中的选项部分），才能组装成一个 IP 数据报。若选择较小的 MSS 长度，网络的利用率就降低。设想在极端的情况下，当 TCP 报文段只含有 1 字节的数据时，在 IP 层传输的数据报的开销至少有 40 字节（包括 TCP 报文段的首部和 IP 数据报的首部）。这样，对网络的利用率就不会超过 1/41。到了数据链路层还要加上一些开销。但反过来，若TCP 报文段非常长，那么在 IP 层传输时就有可能要分解成多个短数据报片。在终点要把收到的各个短数据报片装配成原来的 TCP 报文段。当传输出错时还要进行重传。这些也都会使开销增大。

因此，MSS 应尽可能大些，只要在 IP 层传输时不需要再分片就行。由于 IP 数据报所经历的路径是动态变化的，因此在这条路径上确定的不需要分片的 MSS，如果改走另一条路径就可能需要进行分片。因此最佳的 MSS 是很难确定的。在连接建立的过程中，双方都把自己能够支持的 MSS 写入这一字段，以后就按照这个数值传送数据，两个传送方向可以有不同的 MSS 值。若主机未填写这一项，则 MSS 的默认值是 536 字节长。因此，所有在互联网上的主机都应能接受的报文段长度是 536 + 20 （固定首部长度）=556 字节。

选项字段的其他选项

窗口扩大选项 ——占 3 字节，其中有一个字节表示移位值S。新的窗口值等于 TCP 首部中的窗口位数增大到16 + S，相当于把窗口值向左移动S位后获得实际的窗口大小。
时间戳选项——占 10 字节，其中最主要的字段时间戳值字段（4 字节）和时间戳回送回答字段（4 字节）。
选择确认选项（SACK）。

窗口扩大选项是为了扩大窗口。我们知道，TCP 首部中窗口字段长度是 16 位，因此最大的窗口大小为64K字节。虽然这对早期的网络是足够用的，但对于包含卫星信道的网络，传播时延和带宽都很大，要获得高吞吐率需要更大的窗口大小。

窗口扩大选项可以在双方初始建立 TCP 连接时进行协商。如果连接的某一端实现了窗口扩大，当它不再需要扩大其窗口时，可发送S = 0的选项，使窗口大小回到 16。

时间戳选项有以下两个功能：

第一，用来计算往返时间 RTT。发送方在发送报文段时把当前时钟的时间值放入时间戳字段，接收方在确认该报文段时把时间戳字段值复制到时间戳回送回答字段。因此，发送方在收到确认报文后，可以准确地计算出 RTT 来。
第二，用于处理 TCP 序号超过 2³²的情况，这又称为防止序号绕回 PAWS（Protect Against Wrapped Sequence numbers）。我们知道，TCP 报文段的序号只有 32 位,而每增加 2³²个序号就会重复使用原来用过的序号。当使用高速网络时，在一次 TCP 连接的数据传送中序号很可能会被重复使用。例如，当使用 1.5Mbit/s 的速率发送报文段时，序号重复要 6 小时以上。但若用 2.5Gbit/s 的速率发送报文段，则不到 14 秒钟序号就会重复。为了使接收方能够把新的报文段和迟到很久的报文段区分开，可以在报文段中加上这种时间戳。

UDP 概述

UDP 只在 IP 的数据报服务之上增加了很少的功能：复用和分用、差错检测。

UDP 的特点

UDP 是无连接的，发送数据之前不需要建立连接，因此减少了开销和发送数据之前的时延。
UDP 使用尽最大努力交付，即不保证可靠交付，因此主机不需要维持复杂的连接状态表。
UDP 是面向报文的。
UDP 没有拥塞控制，因此网络出现的拥塞不会使源主机的发送速率降低。这对某些实时应用是很重要的。如 IP 电话、实时视频会议等。
UDP 支持一对一、一对多、多对一和多对多的交互通信。
UDP 的首部开销小，只有 8 个字节，比 TCP 的 20 个字节的首部要短。

面向报文的 UDP 解释

发送方 UDP 对应用程序交下来的报文，在添加首部后就向下交付 IP 层。UDP 对应用层交下来的报文，既不合并，也不拆分，而是保留这些报文的边界。即应用层交给 UDP 多长的报文，UDP 就照样发送，即一次发送一个报文。

接收方 UDP 对 IP 层交上来的 UDP 用户数据报，在去除首部后就原封不动地交付上层的应用进程，一次交付一个完整的报文。因此应用程序必须选择合适大小的报文。

若报文太长，UDP 把它交给 IP 层后，IP 层在传送时可能要进行分片，这会降低 IP 层的效率。
若报文太短，UDP 把它交给 IP 层后，会使 IP 数据报的首部的相对长度太大，这也降低了 IP 层的效率。

UDP 的首部格式

用户数据报 UDP 有两个字段：数据字段和首部字段。

首部字段有 8 个字节，由 4 个字段组成，每个字段都是 2 个字节。

源端口：源端口号。在需要对方回信时选用。不需要时可用全 0；
目的端口：目的端口号。这在终点交付报文时必须使用；
长度：UDP 用户数据报的长度，其最小值是 8 (仅有首部)；
检验和：检测 UDP 用户数据报在传输中是否有错。有错就丢弃。

UDP 基于端口的分用

当传输从 IP 层收到 UDP 数据报时，就根据首部中的目的端口，把 UDP 数据报通过相应的端口，上交给最后的终点——应用进程。

如果接收方 UDP 发现收到的报文中的目的端口号不正确(即不存在对应于该端口号的应用进程)，就丢弃该报文，并由网际控制报文协议 ICMP 发送“端口不可达”差错报文给发送方。

注意，虽然在 UDP 之间的通信要用到端口号，但由于 UDP 的通信是无连接的，因此不需要使用套接字来建立连接(TCP之间的通信必须要在两个套接字之间建立连接)。

计算检验和时，要在 UDP 用户数据报之前增加 12 个字节的伪首部。所谓“伪首部”是因为这种伪首部并不是 UDP 用户数据报真正的首部。只是在计算检验和时，临时添加在 UDP 用户数据报前面，得到一个临时的 UDP 用户数据报。检验和就是按照这个临时的 UDP 用户数据报来计算的。伪首部既不向下传送也不向上递交，而仅仅是为了计算检验和。

计算 UDP 检验和的例子

UDP 计算检验和的方法和计算 IP 数据报首部检验和的方法相似。但不同的是：IP数据报的检验和只检验 IP 数据报的首部，但 UDP 的检验和是把首部和数据部分一起都检验。

在发送方，首先是先把全零放入检验和字段。再把伪首部以及 UDP 用户数据报看成是由许多 16 位的字串接起来的。若 UDP 用户数据报的数据部分不是偶数个字节，则要填入一个全零字节（但此字节不发送）。然后按二进制反码计算出这些 16 位字的和。将此和的二进制反码写入检验和字段后，就发送这样的 UDP 用户数据报。

在接收方，把收到的 UDP 用户数据报连同伪首部（以及可能的填充全零字节）一起，按二进制反码求这些 16 位字的和。当无差错时其结果应为全 1。否则就表明有差错出现，接收方就应丢弃这个 UDP 用户数据报（也可以上交给应用层，但附上出现了差错的警告）。

这里假定用户数据报的长度是 15 字节，因此要添加一个全 0 的字节。

伪首部的第 3 字段是全零；第 4 字段是 IP 首部中的协议字段的值。对于 UDP 此协议字段值为 17；第 5 字段是 UDP 用户数据报的长度。因此，这样的检验和，既检查了 UDP 用户数据报的源端口号和目的端口号以及 UDP 用户数据报的数据部分，又检查了 IP 数据报的源 IP 地址和目的地址。

打赏