AutoCAD 3DMAX C语言 Pro/E UG JAVA编程 PHP编程 Maya动画 Matlab应用 Android
Photoshop Word Excel flash VB编程 VC编程 Coreldraw SolidWorks A Designer Unity3D
 首页 > Linux

Linux网络代码导读v0.2

51自学网 http://www.wanshiok.com


我们顺着udp_sendmsg往下走:
在这个函数的主要作用是填充UDP头(源端口,目的端口等),接着调用了
ip_route_output,作用是查找出去的路由,而后:
...
ip_build_xmit(sk,
(sk->no_check == UDP_CSUM_NOXMIT ?
udp_getfrag_nosum :
udp_getfrag),
&ufh, ulen, &ipc, rt, msg->msg_flags);
...

ip_build_xmit函数的很大比例是生成sk_buff,并为数据包加入IP头。
后面有这么一句:
...
NF_HOOK(PF_INET, NF_IP_LOCAL_OUT, skb, NULL, rt->u.dst.dev,output_maybe_reroute);
...

简单的说,在没有防火墙代码干预的情况下,你可以将此处理解为直接调用output_maybe_reroute,
(具体可参看绿盟月刊14期中的《内核防火墙netfilter入门 》)
而output_maybe_reroute中只有一句:
return skb->dst->output(skb);

依旧照上面的方法(不过这个确实不太好找),发现其实这个指针是在ip_route_output中指定的,
(提示:ip_route_output_slow中:rth->u.dst.output=ip_output;),ip_route_output的作用
便是查找路由,并将结果记录到skb->dst中。

于是,我们开始看ip_output函数了,而它马上又走向了ip_finish_output~~。
每个网络设备,如网卡,在内核中由一个net_device表示,在ip_finish_output中找到其用到的设备
(也是在ip_route_output中初始化的),这个参数在会传给netfilter在NF_IP_POST_ROUTING点登记
的函数,结束后调用ip_finish_output2,而这个函数中又会调用:
...
hh->hh_output(skb);
...

闲话少叙,实际调用了dev_queue_xmit,到此我们完成了TCP/IP层的工作,开始数据链路层的处理。

在做了一些判断之后,实际的调用是这句:
...
dev->hard_start_xmit(skb, dev);
...

这个函数是在网卡的驱动程序中定义的,每个不同的网卡有不同的处理,我的网卡是比较通用的3c509
(其驱动程序是3c509.c),在网卡处理化的时候(el3_probe),有:
...
dev->hard_start_xmit = &el3_start_xmit;
...

再往下便是IO操作,将数据包真正的发到网络上去,至此发送过程结束。

中间我说的有些草率,完全没顾的上中间的如出错,阻塞,分片等特殊处理,只是将理想的过程描述出来。
这篇短文的目的也只是帮助大家建立个大致的印象,其实每个地方的都有非常复杂的处理(尤其是TCP部分)。


2.3 接受数据

当有数据到达网卡的时候,会产生一个硬件中断,然后调用网卡驱动程序中的函数来处理,对我的3c509网卡来说,
其处理函数为:el3_interrupt。(相应的IRQ号是在系统启动,网卡初始化时通过request_irq函数决定的。)
这个中断处理程序首先要做的当然就是进行一些IO操作将数据读入(读IO用inw函数),当数据帧成功接受后,
执行el3_rx(dev)进一步处理。

在el3_rx中,收到的数据报会被封装成struct sk_buff,并脱离驱动程序,转到通用的处理函数netif_rx
(dev.c)中。为了CPU的效率,上层的处理函数的将采用软中断的方式激活,netif_rx的一个重要工作就
是将传入的sk_buff放到等候队列中,并置软中断标志位,然后便可放心返回,等待下一次网络数据包的到来:
...
__skb_queue_tail(&queue->input_pkt_queue,skb);
__cpu_raise_softirq(this_cpu, NET_RX_SOFTIRQ);
...

这个地方在2.2内核中一直被称为"底半"处理--bottom half,其内部实现基本类似,目的是快速的从中断中返回。

过了一段时间后,一次CPU调度会由于某些原因会发生(如某进程的时间片用完)。在进程调度函数即schedule()
中,会检查有没有软中断发生,若有则运行相应的处理函数:
...
if (softirq_active(this_cpu) & softirq_mask(this_cpu))
goto handle_softirq;
handle_softirq_back:
...
...
handle_softirq:
do_softirq();
goto handle_softirq_back;
...

在系统初始化的时候,具体说是在net_dev_init中,此软中断的处理函数被定为net_rx_action:
...
open_softirq(NET_TX_SOFTIRQ, net_tx_action, NULL);
...

当下一次进程调度被执行的时候,系统会检查是否发生NET_TX_SOFTIRQ软中断,若有则调用net_rx_action。

net_tx_action函数既是2.2版本中的net_bh函数,在内核中有两个全局变量用来登记网络层的,
一个是链表ptype_all,另外一个是数组ptype_base[16],他们记载了所有内核能够处理
的第三层(按照OSI7层模型)协议。每个网络层的接收处理由一个
struct packet_type表示,而这个结构将通dev_add_pack函数将他们登记到ptype_all或
ptype_base中。只有packet_type中的type项为ETH_P_ALL时,才会登记到ptype_all链表
中,否则如ip_packet_type,会在数组ptype_base[16]找到相应的位置。两者不同点是
如果是以ETH_P_ALL类型登记,那么处理函数会受到所有类型的包,否则只能处理自己登记
的类型的。

skb->protocol是在el3_rx中赋值的,其实就是以太帧头信息中提取出的上层协议名,对
于我们的例子来说,这个值是ETH_P_IP,所以在net_tx_action中,会选择IP层的接收处理
函数,而从ip_packet_type 不难看出,这个函数便是ip_recv()。
pt_prev->func(实际指向ip_recv)前面有一个atomic_inc(&skb->users)操作(在2.2
内核中这个地方是一句skb_clone,原理类似),目的是增加这个sk_buff的引用数。网络层
的接收函数在处理完或因为某些原因要丢弃此sk_buff时(如防火墙)会调用kfree_skb,
而kfree_skb中首先会检查是否还有其他地方需要此函数,如果没有地方再用,才真正释放
此内存(__kfree_skb),否则只是计数器减一。

现在我们便来看看ip_recv(net/ipv4/ip_input.c)。这个函数的操作是非常清晰的:
首先检查这个包的合法性(版本号,长度,校验和等是否正确),如果合法则进行接下来
的处理。在2.4内核中,为了灵活处理防火墙代码,将原来的一个ip_recv分成了两部分,
即将将原来的的ip_recv的后半段独立出一个ip_rcv_finish函数。在ip_rcv_finish中,
一部分是带有IP选项(如源路由等)的IP包,例外就是通过ip_route_input查找路由,
并将结果记录到skb->dst中。此时接收到的包有两种,发往本地进程(需要传往上层协议)
或转发(用作网关时),此时需要的处理函数也不相同,如果传往本地,则调用ip_local_deliver
(/net/ipv4/ip_input.c),否则调用ip_forward(/net/ipv4/ip_forward.c).skb->dst->input
这个函数指针会将数据报领上正确的道路。

对我们的例子而言,此时应该是调用ip_local_deliver的时候了。
发来的包很有可能是碎片包,这样的话则首先应该把它们组装好再传给上层协议,这当然也是
ip_local_deliver函数所做的第一份工作,如果组装成功(返回的sk_buff不为空),则继续处
理(详细的组装算法可参见绿盟月刊13期中的《IP分片重组的分析和常见碎片攻击》)。
但此时代码又被netfilter一分为二了,象前面一样,我们直接到后半段,即ip_local_deliver_finish
(/net/ipv4/ip_input.c)中去。

传输层(如TCP,UDP,RAW)的处理被登记到了inet_protos中(通过inet_add_protocol)。
ip_local_deliver_finish会根据
IP头信息中的上层协议信息(即iph->protocol),调用相应的处理函数。为了简便,我们
采用了udp,此时的ipprot->handler实际便是udp_rcv了。

前面已经提到,在应用程序中建立的每个socket在内核中有一个struct socket/struct sock
对应。udp_rcv会通过udp_v4_lookup首先找到在内核中的sock,然后将其作参数调用
udp_queue_rcv_skb(/net/ipv4/udp.c)。马上,sock_queue_rcv_skb函数被调用,
此函数将sk_buff放入等待队列,然后通知上层数据到达:
...
kb_set_owner_r(skb, sk);
skb_queue_tail(&sk->receive_queue, skb);
if (!sk->dead)
sk->data_ready(sk,skb->len);
return 0;
...

sk->data_ready的定义在sock结构初始化的时候(sock_init_data):
...
sk->data_ready=sock_def_readable;
...

现在我们便要从上往下看起了:
进程B要接收数据报,在程序里调用:
...
read(sockfd,buff,sizeof(buff));
...

此系统调用在内核中的函数是sys_read(fs/read_write.c)以下的处理类似write的操作,
不再详述.udp_recvmsg函数会调用skb_recv_datagram,如果数据还没有到达,且socket
设为阻塞模式时,进程会挂起(signal_pending(current)),直到data_ready通知进程
资源得到满足后继续处理(wake_up_interruptible(sk->sleep);)。

2.4 skbuff

网络代码中有大量的处理涉及对sk_buff的操作,尽管此文中尽量将其回避了,但在仔细分析的时候
则必须对此作分析,数据包在网络协议层是以sk_buff的形式传送处理的,可以说它是网络部分最重要
的数据结构。具体分析建议参看alan cox的《Network Buffers And Memory Management》,这片发表
在1996年10月的linux journal上。

这里引用phrack 55-12期中的一幅图,尽管它只描绘了sk_buff的极小的一个侧面,但却非常有用,
尤其是当你像我一样总忘记了skb_put是向前还是向后调指针的时候:)

--- -----------------hand
^ | |
| | | ^ skb_push
| | | |
| -----------------data--- ---
| | | ^ |
true | | | v skb_pull
size | | len
| | | | ^ skb_trim
| | | v |
| -----------------tail--- ---
| | | |
| | | v skb_put
v | |
--- -----------------end

linux网络层效率:在linux的网络层代码中指针被大量应用,其目的就是避免数据拷贝这类耗费系统资源的操作。
一个数据包的数据段部分在读入或发出时只经过两次拷贝,即从网卡中考到核心态内存,和从核心态内存考到
用户态内存。前些天看到,在一些提高sniffer抓包效率的尝试中,turbo packet(一个内核补丁)采用了核心态和
用户态共享一段内存的办法,又减少了一次数据拷贝,进一步提高了效率。


3 后记:
这次的投稿又是到了最后关头仓促写出来的,看着里面拙劣的文笔,实在觉得有点对不住观众~~如果有时间
我会把这部分好好重写的,其实这也是我一直的愿望:)

 
 

上一篇:linux kernel 2.4.5 ipv4 socket层的一点解释  下一篇:Linux内核模块编程之字符设备文件