前言
basicfwd位于DPDK源代码example目录下的skeleton目录。
基本转发示例应用程序是转发应用程序的简单框架示例。
它旨在演示DPDK转发应用程序的基本组件。有关更详细的实现,请参阅L2和L3转发示例应用程序。
本篇博客是对于官网例程的补充说明:DPDK basicfwd链接地址
程序流程分析
基本概念
首先我们需要理解在DPDK中,网络数据包的是以mbuf来描述的。在这里贴出一篇博客,它详细的阐述了mbuf的一些概念和作用 mbuf概念以及介绍地址链接
代码详解
下面贴出DPDK例程basicfwd的代码详细注释,大家可以对照原有的代码进行分析
/* SPDX-License-Identifier: BSD-3-Clause
* Copyright(c) 2010-2015 Intel Corporation
*/
#include <stdint.h>
#include <inttypes.h>
#include <rte_eal.h>
#include <rte_ethdev.h>
#include <rte_cycles.h>
#include <rte_lcore.h>
#include <rte_mbuf.h>
#define RX_RING_SIZE 1024
#define TX_RING_SIZE 1024
#define NUM_MBUFS 8191
#define MBUF_CACHE_SIZE 250
#define BURST_SIZE 32
static const struct rte_eth_conf port_conf_default = {
// rxmode 用于配置以太网功能的rx
.rxmode = {
.max_rx_pkt_len = ETHER_MAX_LEN, //指定最大的rx数据包长度
},
};
/* basicfwd.c: Basic DPDK skeleton forwarding example. */
/*
* Initializes a given port using global settings and with the RX buffers
* coming from the mbuf_pool passed as a parameter.
*/
static inline int
port_init(uint16_t port, struct rte_mempool *mbuf_pool)
{
// 该结构体是用于配置以太网端口的结构体
struct rte_eth_conf port_conf = port_conf_default;
const uint16_t rx_rings = 1, tx_rings = 1;
uint16_t nb_rxd = RX_RING_SIZE;
uint16_t nb_txd = TX_RING_SIZE;
int retval;
uint16_t q;
// 以太网设备信息结构体
struct rte_eth_dev_info dev_info;
// 配置以太网tx ring结构体
struct rte_eth_txconf txconf;
// 检测是否是一个有效的port
if (!rte_eth_dev_is_valid_port(port))
return -1;
// 获取网卡设备信息
rte_eth_dev_info_get(port, &dev_info);
// 判断网卡设备是否支持快速释放mbuf
if (dev_info.tx_offload_capa & DEV_TX_OFFLOAD_MBUF_FAST_FREE)
port_conf.txmode.offloads |=
DEV_TX_OFFLOAD_MBUF_FAST_FREE;
/* Configure the Ethernet device. */
/*
port: 网卡编号
rx_rings: 接收队列个数
tx_rings: 发送队列个数
port_conf: 指向网卡设备配置结构体
*/
retval = rte_eth_dev_configure(port, rx_rings, tx_rings, &port_conf);
if (retval != 0)
return retval;
// 检查Rx和Tx描述符的数量是否满足以太网设备信息中的描述符限制,否则将其调整为边界。
retval = rte_eth_dev_adjust_nb_rx_tx_desc(port, &nb_rxd, &nb_txd);
if (retval != 0)
return retval;
/* Allocate and set up 1 RX queue per Ethernet port. */
for (q = 0; q < rx_rings; q++) {
/*
分配并设置以太网设备的接收队列
port: 网卡编号
q:设置的队列索引
nb_rxd: 分配给接收队列的描述符数量
rte_eth_dev_socket_id(port): socket id
NULL: 指向要用于接收队列的配置数据的指针。允许使用NULL值,在这种情况下,将使用默认的RX配置。
mbuf_pool: mbuf缓存池
*/
retval = rte_eth_rx_queue_setup(port, q, nb_rxd,
rte_eth_dev_socket_id(port), NULL, mbuf_pool);
if (retval < 0)
return retval;
}
txconf = dev_info.default_txconf;
txconf.offloads = port_conf.txmode.offloads;
/* Allocate and set up 1 TX queue per Ethernet port. */
for (q = 0; q < tx_rings; q++) {
/*
分配并设置以太网设备的发送队列
port: 网卡编号
q:设置的队列索引
nb_rxd: 分配给发送队列的描述符数量
rte_eth_dev_socket_id(port): socket id
txconf: 配置传输队列的配置指针
*/
retval = rte_eth_tx_queue_setup(port, q, nb_txd,
rte_eth_dev_socket_id(port), &txconf);
if (retval < 0)
return retval;
}
/* Start the Ethernet port. */
retval = rte_eth_dev_start(port);
if (retval < 0)
return retval;
/* Display the port MAC address. */
struct ether_addr addr;
// 获取设备的mac地址
rte_eth_macaddr_get(port, &addr);
printf("Port %u MAC: %02" PRIx8 " %02" PRIx8 " %02" PRIx8
" %02" PRIx8 " %02" PRIx8 " %02" PRIx8 "\n",
port,
addr.addr_bytes[0], addr.addr_bytes[1],
addr.addr_bytes[2], addr.addr_bytes[3],
addr.addr_bytes[4], addr.addr_bytes[5]);
/* Enable RX in promiscuous mode for the Ethernet device. */
// 在混杂模式下启用接收
rte_eth_promiscuous_enable(port);
return 0;
}
/*
* The lcore main. This is the main thread that does the work, reading from
* an input port and writing to an output port.
*/
static __attribute__((noreturn)) void
lcore_main(void)
{
uint16_t port;
/*
* Check that the port is on the same NUMA node as the polling thread
* for best performance.
*/
RTE_ETH_FOREACH_DEV(port)
if (rte_eth_dev_socket_id(port) > 0 &&
rte_eth_dev_socket_id(port) !=
(int)rte_socket_id())
printf("WARNING, port %u is on remote NUMA node to "
"polling thread.\n\tPerformance will "
"not be optimal.\n", port);
printf("\nCore %u forwarding packets. [Ctrl+C to quit]\n",
rte_lcore_id());
/* Run until the application is quit or killed. */
for (;;) {
/*
* Receive packets on a port and forward them on the paired
* port. The mapping is 0 -> 1, 1 -> 0, 2 -> 3, 3 -> 2, etc.
*/
RTE_ETH_FOREACH_DEV(port) {
/* Get burst of RX packets, from first port of pair. */
struct rte_mbuf *bufs[BURST_SIZE];
// 从prot指定的网卡中获取数据,存储到bufs二维数组中,最大的个数为BURST_SIZE。返回接收的rx的数量。
const uint16_t nb_rx = rte_eth_rx_burst(port, 0,
bufs, BURST_SIZE);
if (unlikely(nb_rx == 0))
continue;
/* Send burst of TX packets, to second port of pair. */
// 这里非常巧妙的使用了一个亦或操作,0号网卡的数据将转到1 1号网卡的数据将转到0
// 发送数据
const uint16_t nb_tx = rte_eth_tx_burst(port ^ 1, 0,
bufs, nb_rx);
/* Free any unsent packets. */
// 如果发送的数据不等于接收到的数据(唯一出现的就是发送的个数少于接收的)
if (unlikely(nb_tx < nb_rx)) {
uint16_t buf;
for (buf = nb_tx; buf < nb_rx; buf++)
// 释放没有发送完成的mbuf, TODO: 这里有个注意的点,接收的buf在发送后应该被发送函数释放了,所以我们在这个地方只需要关注没有释放的
rte_pktmbuf_free(bufs[buf]);
}
}
}
}
/*
* The main function, which does initialization and calls the per-lcore
* functions.
*/
int
main(int argc, char *argv[])
{
struct rte_mempool *mbuf_pool;
unsigned nb_ports;
uint16_t portid;
/* Initialize the Environment Abstraction Layer (EAL). */
int ret = rte_eal_init(argc, argv);
if (ret < 0)
rte_exit(EXIT_FAILURE, "Error with EAL initialization\n");
argc -= ret;
argv += ret;
/* Check that there is an even number of ports to send/receive on. */
// 返回可用的以太网卡个数
nb_ports = rte_eth_dev_count_avail();
if (nb_ports < 2 || (nb_ports & 1))
rte_exit(EXIT_FAILURE, "Error: number of ports must be even\n");
/* Creates a new mempool in memory to hold the mbufs. */
//Mbuf主要用来封装网络帧缓存,也可用来封装通用控制信息缓存
/* 新建一个mbuf内存池.
NUM_MBUFS * nb_ports: 为每个网卡建NUM_MBUFS*网卡个数的mbuf
MBUF_CACHE_SIZE :代表的是每个mp的cache大小
0: 每一个mbuf私有数据空间的大小,不需要直接设置为0即可
RTE_MBUF_DEFAULT_BUF_SIZE: mbuf的数据报文的大小,理论上需要加上room head的大小,建议使用默认值RTE_MBUF_DEFAULT_BUF_SIZE
rte_socket_id(): 申请内存的socket,不清楚设置那个的直接使用rte_socket_id()即可
*/
mbuf_pool = rte_pktmbuf_pool_create("MBUF_POOL", NUM_MBUFS * nb_ports,
MBUF_CACHE_SIZE, 0, RTE_MBUF_DEFAULT_BUF_SIZE, rte_socket_id());
if (mbuf_pool == NULL)
rte_exit(EXIT_FAILURE, "Cannot create mbuf pool\n");
/* Initialize all ports. */
RTE_ETH_FOREACH_DEV(portid)
if (port_init(portid, mbuf_pool) != 0)
rte_exit(EXIT_FAILURE, "Cannot init port %"PRIu16 "\n",
portid);
// 判断指定的内核个数
if (rte_lcore_count() > 1)
printf("\nWARNING: Too many lcores enabled. Only 1 used.\n");
/* Call lcore_main on the master core only. */
lcore_main();
return 0;
}
程序流程
为了更好的方便理解,我画了程序的流程图。
在上面的流程图中也已经将网络数据包的初始化流程简介清楚了。再总结一下
- 分配mbuf
- 配置prot(网卡)
- 分配和配置发送接收队列
- 启动网卡
运行程序
在这里需要说明一点,该该程序运行的是否必须指定一个核心,同事需要指定2的倍数的网卡。我这里绑定了2张网卡。
import os
if __name__ == "__main__":
os.system("export RTE_SDK=/home/yangpf/dpdk-stable-18.11.9")
os.system("export RTE_TARGET=x86_64-native-linuxapp-gcc")
os.system("modprobe uio")
os.system("insmod ./x86_64-native-linuxapp-gcc/kmod/igb_uio.ko")
os.system("mkdir -p /mnt/huge && echo 512 > /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages")
os.system("ifconfig ens37 down && ifconfig ens38 down")
os.system("./usertools/dpdk-devbind.py --bind=igb_uio ens37")
os.system("./usertools/dpdk-devbind.py --bind=igb_uio ens38")
接着运行程序
./basicfwd -l 1 -n 4
观察测试结果
由于网卡被dpdk绑定,那么该网卡不再被eth工具接管。所以我们使用ifconfig的时候是看不到该网卡的。
并且此时的网卡没有ip地址。那么我们怎么测试呢?
dpdk官方提供了一个工具pktgen-dpdk。我们可以运行pktgen-dpdk工具来进行收发包测试。(pktgen-dpdk工具很重要,网上的例程不多,我会抽时间将移植过程和使用方法以博客的方式给出。pktgen-dpdk是必须掌握的,不然直观的看到dpdk程序的运行效果)
- basicfwd 运行前
在程序运行前,网卡的速率都不是很大。
- basicfwd 运行中
我们在程序运行起来后,我们可以看到数据包被转发到另一个网卡,两个网卡的速率都达到很大的速率。