目录
2. 面向连接的套接字 inet_connection_sock
3.1.1 操作函数 struct tcp_request_sock_ops
1. 请求队列概述
TCP服务器端程序首先创建一个监听套接字,一旦有客户端连接该监听套接字,那么会创建一个新的通信套接字用来和客户端通信,而监听套接字继续等待其它客户端的连接请求。这期间就是三次握手过程,这个过程可能会失败,所以为了管理这期间的套接字,TCP协议特意定义了一组数据结构。这篇笔记的目的就是把这几个核心数据结构之间的关系理清楚,先来一张整体结构图,对着结构图看下面的数据结构定义会更容易理解。
2. 面向连接的套接字 inet_connection_sock
每个面向连接的套接字都是一个struct inet_connection_sock,该结构中有一个成员isck_accept_queue,该成员就是所谓的连接管理队列,用来管理所有正在进行三次握手、或者已经完成三次握手等待accept()的套接字。
注意:客户端套接字并不使用该队列,因为没有使用的必要。
/** inet_connection_sock - INET connection oriented sock
*
* @icsk_accept_queue: FIFO of established children
*/
struct inet_connection_sock {
...
struct request_sock_queue icsk_accept_queue;
}
2.1 连接建立队列 request_sock_queue
struct request_sock_queue {
//head和tail用于维护已经完成三次握手,等待用户程序accept的套接字,
//后续称该队列为“accept连接队列”,其中的套接字为“已连接套接字”
struct request_sock *rskq_accept_head;
struct request_sock *rskq_accept_tail;
//用于同步对listen_opt的操作
rwlock_t syn_wait_lock;
//与TCP选选TCP_DEFER_ACCEPT有关,暂时忽略
u8 rskq_defer_accept;
/* 3 bytes hole, try to pack */
//已经收到SYN,但是尚未完成三次握手的套接字保存在该结构中,其占用内存在listen()
//系统调用期间分配,后续称该队列为“SYN请求队列”,其中的套接字为“半连接套接字”
struct listen_sock *listen_opt;
};
2.2 SYN请求队列 listen_sock
struct listen_sock {
//其取值为nr_table_entries以2为底的对数
u8 max_qlen_log;
/* 3 bytes hole, try to use */
//当前syn_table哈希表中套接字的数目,即有多少个半连接套接字
int qlen;
//服务器端会超时重传SYN+ACK段,该变量记录了那些还尚未重传过SYN+ACK段的套接字个数
int qlen_young;
int clock_hand;
//该随机数用于访问listen_opt哈希表时计算哈希值
u32 hash_rnd;
//syn_table哈希表的桶大小,该值和listen()系统调用的backlog参数有关
u32 nr_table_entries;
//半连接套接字哈希表,管理的元素就是连接请求块,见下方
struct request_sock *syn_table[0];
};
3. 连接请求块 request_sock
类似于一般的套接字,有struct tcp_sock这样的TCB对应,已连接套接字和半连接套接字也同样需要一个类似的TCB,不过它们对应的不是struct tcp_sock,而是这里要介绍的struct tcp_request_sock。该结构同样是分层次的,依次是struct tcp_request_sock、struct inet_request_sock、struct request_sock下面是该结构的定义。
3.1 struct tcp_request_sock
struct tcp_request_sock {
struct inet_request_sock req;
#ifdef CONFIG_TCP_MD5SIG
/* Only used by TCP MD5 Signature so far. */
const struct tcp_request_sock_ops *af_specific;
#endif
//客户端SYN段中携带的seq,即客户端的初始序列号 */
u32 rcv_isn;
//SYN+ACK段携带的seq,即服务器端的初始序列号
u32 snt_isn;
//SYN+ACK段发送的时间戳,基于jiffies
u32 snt_synack;
};
struct inet_request_sock {
struct request_sock req;
#if IS_ENABLED(CONFIG_IPV6)
u16 inet6_rsk_offset;
#endif
__be16 loc_port; /* 服务器端端口号 */
__be32 loc_addr; /* 服务器端IP地址 */
__be32 rmt_addr; /* 客户端IP地址 */
__be16 rmt_port; /* 客户端端口号 */
kmemcheck_bitfield_begin(flags);
u16 snd_wscale : 4, /* 客户端的窗口扩大因子 */
rcv_wscale : 4, /* 服务器端的窗口扩大因子 */
tstamp_ok : 1, /* 标识本连接是否支持TIMESTAMP选项 */
sack_ok : 1, /* 标识本连接是否支持SACK选项 */
wscale_ok : 1, /* 标识本连接是否支持Window Scale选项 */
ecn_ok : 1, /* 标识本连接是否支持ECN选项 */
acked : 1,
no_srccheck : 1;
kmemcheck_bitfield_end(flags);
struct ip_options_rcu *opt; /* IP选项 */
};
/* struct request_sock - mini sock to represent a connection request
*/
struct request_sock {
//和其它struct request_sock对象形成链表
struct request_sock *dl_next; /* Must be first member! */
//SYN段中客户端通告的MSS
u16 mss;
//SYN+ACK段已经重传的次数,初始化为0
u8 retrans;
u8 __pad;
u32 window_clamp; /* window clamp at creation time */
u32 rcv_wnd; /* rcv_wnd offered first time */
u32 ts_recent;
//SYN+ACK段的超时时间
unsigned long expires;
//指向tcp_request_sock_ops,该函数集用于处理第三次握手的
//ACK段以及后续accept过程中struct tcp_sock对象的创建
const struct request_sock_ops *rsk_ops;
//连接建立前无效,建立后指向创建的tcp_sock结构
struct sock *sk;
u32 secid;
u32 peer_secid;
};
3.1.1 操作函数 struct tcp_request_sock_ops
struct request_sock_ops {
int family; /* 所属的协议族 */
int obj_size; /* 连接请求块的大小 */
struct kmem_cache *slab; /* 连接请求块的高速缓存 */
char *slab_name;
//SYN+ACK段重传时调用该函数
int (*rtx_syn_ack) (struct sock *sk, struct request_sock *req, struct request_values *rvp);
//发送ACK段时调用该函数
void (*send_ack) (struct sock *sk, struct sk_buff *skb, struct request_sock *req);
//发送RST段时调用该函数
void (*send_reset) (struct sock *sk, struct sk_buff *skb);
//析构函数
void (*destructor) (struct request_sock *req);
//SYN+ACK段超时处理函数
void (*syn_ack_timeout) (struct sock *sk, struct request_sock *req);
};
//TCP的实际定义
struct request_sock_ops tcp_request_sock_ops__read_mostly = {
.family = PF_INET,
.obj_size = sizeof(struct tcp_request_sock),
.rtx_syn_ack = tcp_v4_rtx_synack,
.send_ack = tcp_v4_reqsk_send_ack,
.destructor = tcp_v4_reqsk_destructor,
.send_reset = tcp_v4_send_reset,
.syn_ack_timeout = tcp_syn_ack_timeout,
};