主要内容:客户端接收SYNACK、发送ACK,完成连接的建立。
内核版本:3.15.2
我的博客:
接收入口
tcp_v4_rcv
|--> tcp_v4_do_rcv
|-> tcp_rcv_state_process
|-> tcp_rcv_synsent_state_process
1. 状态为ESTABLISHED时,用tcp_rcv_established()接收处理。
2. 状态为LISTEN时,说明这个sock处于监听状态,用于被动打开的接收处理,包括SYN和ACK。
3. 当状态不为ESTABLISHED或TIME_WAIT时,用tcp_rcv_state_process()处理。
客户端主动建立连接时,发送SYN段后,连接的状态变为SYN_SENT。
此时如果收到SYNACK段,处理函数为tcp_rcv_state_process()。
int tcp_v4_do_rcv(struct sock *sk, struct sk_buff *skb)
{
struct sock *rsk;
#ifdef CONFIG_TCP_MD5SIG
/* We really want to reject the packet as early as possible if :
* We're expecting an MD5'd packet and this is no MD5 tcp option.
* There is an MD5 option and we're not expecting one.
*/
if (tcp_v4_inbound_md5_hash(sk, skb))
goto discard;
#endif
/* 当状态为ESTABLISHED时,用tcp_rcv_established()接收处理 */
if (sk->sk_state == TCP_ESTABLISHED) { /* Fast path */
struct dst_entry *dst = sk->sk_rx_dst;
sock_rps_save_rxhash(sk, skb);
if (dst) {
if (inet_sk(sk)->rx_dst_ifindex != skb->skb_iif || dst->ops->check(dst, 0) == NULL) {
dst_release(dst);
sk->sk_rx_dst = NULL;
}
}
/* 连接已建立时的处理路径 */
tcp_rcv_established(sk, skb, tcp_hdr(skb), skb->len);
return 0;
}
/* 检查报文长度、报文校验和 */
if (skb->len < tcp_hdrlen(skb) || tcp_checksum_complete(skb))
goto csum_err;
/* 如果这个sock处于监听状态,被动打开时的处理,包括收到SYN或ACK */
if (sk->sk_state == TCP_LISTEN) {
/* 返回值:
* NULL,错误
* nsk == sk,接收到SYN
* nsk != sk,接收到ACK
*/
struct sock *nsk = tcp_v4_hnd_req(sk, skb);
if (! nsk)
goto discard;
if (nsk != sk) { /* 接收到ACK时 */
sock_rps_save_rxhash(nsk, skb);
if (tcp_child_process(sk, nsk, skb)) { /* 处理新的sock */
rsk = nsk;
goto reset;
}
return 0;
}
} else
sock_rps_save_rx(sk, skb);
/* 处理除了ESTABLISHED和TIME_WAIT之外的所有状态,包括SYN_SENT状态 */
if (tcp_rcv_state_process(sk, skb, tcp_hdr(skb), skb->len)) {
rsk = sk;
goto reset;
}
return 0;
reset:
tcp_v4_send_reset(rsk, skb); /* 发送被动的RST包 */
discard:
kfree_skb(skb);
return 0;
csum_err:
TCP_INC_STATS_BH(sock_net(sk), TCP_MIB_CSUMERRORS);
TCP_INC_STATS_BH(sock_net(sk), TCP_MIB_INERRS);
goto discard;
}
连接状态不为ESTABLISHED或TIME_WAIT时的处理函数为tcp_rcv_state_process()。
/* This function implements the receiving procedure of RFC 793 for
* all states except ESTABLISHED and TIME_WAIT.
*/
int tcp_rcv_state_process(struct sock *sk, struct sk_buff *skb, const struct tcphdr *th, unsigned int len)
{
struct tcp_sock *tp = tcp_sk(sk);
struct inet_connection_sock *icsk = inet_csk(sk);
struct request_sock *req;
int queued = 0;
bool acceptable;
u32 synack_stamp;
tp->rx_opt.saw_tstamp = 0;
switch (sk->sk_state) {
...
case TCP_SYN_SENT:
/* 处理SYN_SENT状态,主要做了:
* 判断SYNACK的合法性,更新连接的信息。
* 把连接状态置为TCP_ESTABLISHED。
* 发送ACK,可能立即发送,也可能延迟发送。
*/
queued = tcp_rcv_synsent_state_process(sk, skb, th, len);
if (queued >= 0)
return queued; /* 会导致调用函数发送RST */
tcp_urg(sk, skb, th); /* 处理紧急数据 */
/* 发送数据,并检查是否需要扩大发送缓存 */
tcp_data_snd_check(sk);
return 0;
}
...
}
SYN_SENT状态处理
tcp_rcv_synsent_state_process()用于SYN_SENT状态的处理,具体又分两种场景。
(1) 接收到SYNACK
一般情况下会收到服务端的SYNACK,处理如下:
检查ack_seq是否合法。
如果使用了时间戳选项,检查回显的时间戳是否合法。
检查TCP的标志位是否合法。
如果SYNACK是合法的,更新sock的各种信息。
把连接的状态设置为TCP_ESTABLISHED,唤醒调用connect()的进程。
判断是马上发送ACK,还是延迟发送。
(2) 接收到SYN
本端之前发送出一个SYN,现在又接收到了一个SYN,双方同时向对端发起建立连接的请求。
处理如下:
把连接状态置为SYN_RECV。
更新sock的各种信息。
构造和发送SYNACK。
接者对端也会回应SYNACK,之后的处理流程和服务器端接收ACK类似,可参考之前的blog。
当tcp_rcv_synsent_state_process()的返回值大于0时,会导致上层调用函数发送一个被动的RST。
Q:那么什么情况下此函数的返回值会大于0?
A:收到一个ACK段,但ack_seq的序号不正确,或者回显的时间戳不正确。
static int tcp_rcv_synsent_state_process(struct sock *sk, struct sk_buff *skb,
const struct tcphdr *th, unsigned int len)
{
struct inet_connection_sock *icsk = inet_csk(sk);
struct tcp_sock *tp = tcp_sk(sk);
struct tcp_fastopen_cookie foc = { .len = -1 };
int saved_clamp = tp->rx_opt.mss_clamp;
/* 全面解析skb携带的TCP选项 */
tcp_parse_options(skb, &tp->rx_opt, 0, &foc);
if (tp->rx_opt.saw_tstamp && tp->rx_opt.rcv_tsecr)
tp->rx_opt.rcv_tsecr -= tp->tsoffset; /* timestamp offset */
/* 如果携带ACK标志,那么有可能是SYNACK */
if (th->ack) {
/* rfc793:
* If the state is SYN-SENT then first check the ACK bit
* If the ACK bit is set
* If the SEG.ACK <= ISS, or SEG.ACK > SND.NXT, send
* a reset (unless the RST bit is set, if so drop the segment
* and return)"
*/
/* 检查ack_seq:snd_una < ack_seq <= snd_nxt。
* 如果SYN段没有携带数据,那么此时ack_seq应该为本端的ISN + 1。
*/
if (! after(TCP_SKB_CB(skb)->ack_seq, tp->snd_una) ||
after(TCP_SKB_CB(skb)->ack_seq, tp->snd_nxt))
goto reset_and_undo;
/* 如果使用了时间戳选项,那么回显的时间戳,必须落在
* 第一次发送SYN段的时间和当前时间之间。
*/
if (tp->rx_opt.saw_tstamp && tp->rx_opt.rcv_tsecr &&
!between(tp->rx_opt.rcv_tsecr, tp->retrans_stamp, tcp_time_stamp)) {
NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_PAWSACTIVEREJECTED);
goto reset_and_undo;
}
/* Now ACK is acceptable.
* If the RST bit is set
* If the ACK was acceptable then signal the user "error: connection reset",
* drop the segment, enter CLOSED state, delete TCB, and return."
*/
if (th->rst) { /* 如果携带了RST标志位,那么建立连接失败了:)*/
tcp_reset(sk);
goto discard;
}
/* RFC793:
* fifth, if neither of the SYN or RST bits is set then drop the segment and return.
*/
/* 如果既没有RST也没有SYN标志位,那么直接丢弃这个ACK */
if (! th->syn)
goto discard_and_undo;
/* RFC793:
* If the SYN bit is on ...
* are acceptable then ...
* (ousr SYN has been ACKed), change the connection state to ESTABLISHED...
*/
/* 收到一个合法的SYNACK了,接下来要完成连接的建立了 */
/* 如果对端支持ECN,SYNACK只会设置ECE标志。
* 否则,连接就不支持ECN显式拥塞通知了。
*/
TCP_ECN_rcv_synack(tp, th);
/* 记录最近更新发送窗口的ACK序号 */
tcp_init_wl(tp, TCP_SKB_CB(skb)->seq);
/* 更新发送窗口,删除发送队列中已被确认的SYN段,并进行时延采样 */
tcp_ack(sk, skb, FLAG_SLOWPATH);
/* Ok. it's good. Set up sequence numbers and move to established. */
tp->rcv_nxt = TCP_SKB_CB(skb)->seq + 1; /* 更新接收窗口的要接收的下一个序号 */
tp->rcv_wup = TCP_SKB_CB(skb)->seq + 1; /* 更新接收窗口的左端 */
/* RFC1323: The window in SYN & SYN/ACK segments is never scaled.
* 更新对端接收窗口的大小。在三次握手时,不使用窗口扩大因子。
*/
tp->snd_wnd = ntohs(th->window);
/* 如果连接不支持窗口扩大因子选项 */
if (! tp->rx_opt.wscale_ok) {
tp->rx_opt.snd_wscale = tp->rx_opt.rcv_wscale = 0;
tp->window_clamp = min(tp->window_clamp, 65535U);
}
/* 如果连接支持时间戳选项 */
if (tp->rx_opt.saw_tstamp) {
tp->rx_opt.tstamp_ok = 1;
tp->tcp_header_len = sizeof(struct tcphdr) + TCPOLEN_TSTAMP_ALIGNED;
tp->advmss -= TCPOLEN_TSTAMP_ALIGNED;
tcp_store_ts_recent(tp); /* 记录对端的时间戳,作为下次发送的回显值 */
} else {
tp->tcp_header_len = sizeof(struct tcphdr);
}
/* 使用SACK时,才能考虑是否使用FACK */
if (tcp_is_sack(tp) && sysctl_tcp_fack)
tcp_enable_fack(tp);
tcp_mtu_init(sk); /* TCP的MTU初始化 */
tcp_sync_mss(sk, icsk->icsk_pmtu_cookie); /* 更新MSS */
tcp_initialize_rcv_mss(sk); /* 对端有效发送MSS估值的初始化 */
/* Remember, tcp_poll() does not lock socket!
* Change state from SYN-SENT only after copied_seq is initialized.
*/
tp->copied_seq = tp->rcv_nxt; /* 更新未读数据的左端 */
smp_mb();
/* 走到这里,连接算是成功建立了,接下来:
* 把连接的状态设置为TCP_ESTABLISHED。
* 唤醒调用connect()的进程。
*/
tcp_finish_connect(sk, skb);
/* Fast Open选项处理 */
if ((tp->syn_fastopen || tp->syn_data) &&
tcp_rcv_fastopen_synack(sk, skb, &foc))
return -1;
/* 符合以下任一条件,则使用延迟确认,不会马上发送ACK:
* 目前有数据等待发送。
* 使用TCP_DEFER_ACCEPT选项。
* 延迟确认标志为1。
*/
if (sk->sk_write_pending || icsk->icsk_accept_queue->rskq_defer_accept ||
icsk->icsk_ack.pingpong) {
inet_csk_schedule_ack(sk); /* 设置ICSK_ACK_SCHED标志位,表示有ACK需要发送 */
icsk->icsk_ack.lrcvtime = tcp_time_stamp; /* 更新最后一次接收到数据报的时间 */
tcp_enter_quickack_mode(sk); /* 进入快速确认模式,之后会进行快速确认 */
/* 激活延迟确认定时器,超时时间为200ms,也就是说最多延迟200ms */
inet_csk_reset_xmit_timer(sk, ICSK_TIME_DACK, TCP_DELACK_MAX, TCP_RTO_MAX);
discard:
__kfree_skb(skb);
return 0;
} else {
tcp_send_ack(sk); /* 立即发送一个ACK,即三次握手的最后一个ACK */
}
return -1;
}
/* No ACK in the segment */
/* 如果收到的段没有ACK标志,却设置了RST标志,那么直接丢掉 */
if (th->rst) {
/* rfc793:
* If the RST bit is set and no ACK, drop the segment and return.
*/
goto discard_and_undo;
}
/* PAWS check. 检查时间戳是否合法 */
if (tp->rx_opt.ts_recent_tstamp && tp->rx_opt.saw_tstamp &&
tcp_paws_reject(&tp->rx_opt, 0))
goto discard_and_undo;
/* 收到了SYN段,即同时打开 */
if (th->syn) {
/* We see SYN without ACK. It is attempt of simultaneous connect
* with crossed SYNs. Particularly, it can be connect to self.
*/
/* 发送SYN后,状态为SYN_SENT,如果此时也收到SYN,
* 状态则变为SYN_RECV。
*/
tcp_set_state(sk, TCP_SYN_RECV);
if (tp->rx_opt.saw_tstamp) {
tp->rx_opt.tstamp_ok = 1;
tcp_store_ts_recent(tp); /* 记录对端的时间戳,作为下次发送的回显值 */
tp->tcp_header_len = sizeof(tcphdr) + TCPOLEN_TSTAMP_ALIGNED;
} else {
tp->tcp_header_len = sizeof(struct tcphdr);
}
tp->rcv_nxt = TCP_SKB_CB(skb)->seq + 1; /* 更新接收窗口的要接收的下一个序号 */
tp->rcv_wup = TCP_SKB_CB(skb)->seq + 1; /* 更新接收窗口的左端 */
/* RFC1323: The window in SYN & SYN/ACK segments is never scaled.
* 更新对端接收窗口的大小。在三次握手时,不使用窗口扩大因子。
*/
tp->snd_wnd = ntohs(th->window);
tp->snd_wl1 = TCP_SKB_CB(skb)->seq; /* 记录最近更新发送窗口的ACK序号 */
tp->max_window = tp->snd_wnd; /* 目前见过的对端的最大通告窗口 */
/* 如果对端支持ECN,SYN会同时设置ECE和CWR标志。
* 否则,连接就不支持ECN显式拥塞通知了。
*/
TCP_ECN_rcv_syn(tp, th);
tcp_mtu_init(sk); /* TCP的MTU初始化 */
tcp_sync_mss(sk, icsk->icsk_pmtu_cookie); /* 更新MSS */
tcp_initialize_rcv_mss(sk); /* 对端有效发送MSS估值的初始化 */
/* 构造和发送SYNACK */
tcp_send_synack(sk);
goto discard;
}
discard_and_undo:
tcp_clear_options(&tp->rx_opt);
tp->rx_opt.mss_clamp = saved_clamp;
goto discard;
reset_and_undo:
tcp_clear_options(&tp->rx_opt);
tp->rx_opt.mss_clamp = saved_clamp;
return 1;
}
同时打开时,在SYN_SENT状态,收到SYN段后,状态变为SYN_RECV,然后发送SYNACK。
之后如果收到合法的SYNACK后,就能完成连接的建立。
/* Send a crossed SYN-ACK during socket establishment.
* WARNING: This routine must only be called when we have already
* sent a SYN packet that crossed the incoming SYN that caused this
* routine to get called. If this assumption fails then the initial rcv_wnd
* and rcv_wscale values will not be correct.
*/
int tcp_send_synack(struct sock *sk)
{
struct sk_buff *skb;
skb = tcp_write_queue_head(sk); /* 发送队列的第一个段,即SYN段 */
if (skb == NULL || ! (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_SYN)) {
pr_debug("%s: wrong queue state\n", __func__);
return -EFAULT;
}
if (! (TCP_SKB_CB(skb)->tcp_flags & TCPHDR_ACK)) {
/* 如果这个skb是克隆的,并且有多个使用者,那么就不能直接修改此skb。
* 此时再克隆一个私有的nskb,替换掉之前的。然后就可以任意修改了。
*/
if (skb_cloned(skb)) {
struct sk_buff *nskb = skb_copy(skb, GFP_ATOMIC); /* 再克隆一份 */
if (nskb == NULL)
return -ENOMEM;
tcp_unlink_write_queue(skb, sk); /* 把skb从发送队列中删除 */
skb_header_release(nskb); /* 增加skb负荷部分的引用计数 */
__tcp_add_write_queue_head(sk, nskb); /* 把nskb放入发送队列的头部 */
sk_wmem_free_skb(sk, skb); /* 更新内存使用情况 */
sk->sk_wmem_queued += nskb->truesize; /* 更新发送队列的总大小 */
sk_mem_charge(sk, nskb->truesize); /* 更新预分配但未使用的内存大小 */
skb = nskb; /* 接下来使用的是独占的nskb */
}
TCP_SKB_CB(skb)->tcp_flags |= TCPHDR_ACK;
TCP_ECN_send_synack(tcp_sk(sk), skb); /* 设置ECN标志位 */
}
TCP_SKB_CB(skb)->when = tcp_time_stamp;
return tcp_transmit_skb(sk, skb, 1, GFP_ATOMIC); /* 发送此SYNACK段 */
}
static inline void sk_wmem_free_skb(struct sock *sk, struct sk_buff *skb)
{
/* write queue has been shrunk recently */
sock_set_flag(sk, SOCK_QUEUE_SHRUNK);
sk->sk_wmem_queued -= skb->truesize; /* 更新发送队列的总大小 */
sk_mem_uncharge(sk, skb->truesize); /* 更新预分配但未使用的内存大小 */
__kfree_skb(skb);
}
唤醒用户进程
tcp_finish_connect()用来完成连接的建立,主要做了以下事情:
1. 把连接的状态从SYN_SENT置为ESTABLISHED。
2. 根据路由缓存,初始化TCP相关的变量。
3. 获取默认的拥塞控制算法。
4. 调整发送缓存和接收缓存的大小。
5. 如果使用了SO_KEEPALIVE选项,激活保活定时器。
6. 唤醒此socket等待队列上的进程(即调用connect的进程)。
如果使用了异步通知,则发送SIGIO通知异步通知队列上的进程可写。
void tcp_finish_connect(struct sock *sk, struct sk_buff *skb)
{
struct tcp_sock *tp = tcp_sk(sk);
struct inet_connection_sock *icsk = inet_csk(sk);
/* 连接状态从SYN_SENT变为ESTABLISHED */
tcp_set_state(sk, TCP_ESTABLISHED);
if (skb != NULL) {
icsk->icsk_af_ops->sk_rx_dst_set(sk, skb);
security_inet_conn_established(sk, skb);
}
/* Make sure socket is routed, for correct metrics */
icsk->icsk_af_ops->rebuild_header(sk);
/* 根据路由缓存,初始化TCP相关变量 */
tcp_init_metrics(sk);
/* 获取默认的TCP拥塞控制算法 */
tcp_init_congestion_control(sk);
/* Prevent spurious tcp_cwnd_restart() on first data packet. */
tp->lsndtime = tcp_time_stamp; /* 最近发包的时间 */
/* 调整发送缓存和接收缓存的大小 */
tcp_init_buffer_space(sk);
/* 如果使用了SO_KEEPALIVE选项,激活保活定时器 */
if (sock_flag(sk, SOCK_KEEPOPEN))
inet_csk_reset_keepalive_timer(sk, keepalive_time_when(tp));
/* 如果对端的窗口扩大因子为0 */
if (! tp->rx_opt.snd_wscale)
__tcp_fast_path_on(tp, tp->snd_wnd); /* 设置首部预测字段 */
else
tp->pred_flags = 0;
if (! sock_flag(sk, SOCK_DEAD)) {
/* 指向sock_def_wakeup,唤醒调用connect()的进程 */
sk->sk_state_change(sk);
/* 如果使用了异步通知,则发送SIGIO通知进程可写 */
sk_wake_async(sk, SOCK_WAKE_IO, POLL_OUT);
}
}