前言

basicfwd位于DPDK源代码example目录下的skeleton目录。
基本转发示例应用程序是转发应用程序的简单框架示例。
它旨在演示DPDK转发应用程序的基本组件。有关更详细的实现,请参阅L2和L3转发示例应用程序。

本篇博客是对于官网例程的补充说明:DPDK basicfwd链接地址

程序流程分析

基本概念

首先我们需要理解在DPDK中,网络数据包的是以mbuf来描述的。在这里贴出一篇博客,它详细的阐述了mbuf的一些概念和作用 mbuf概念以及介绍地址链接

代码详解

下面贴出DPDK例程basicfwd的代码详细注释,大家可以对照原有的代码进行分析

/* SPDX-License-Identifier: BSD-3-Clause
 * Copyright(c) 2010-2015 Intel Corporation
 */

#include <stdint.h>
#include <inttypes.h>
#include <rte_eal.h>
#include <rte_ethdev.h>
#include <rte_cycles.h>
#include <rte_lcore.h>
#include <rte_mbuf.h>

#define RX_RING_SIZE 1024
#define TX_RING_SIZE 1024

#define NUM_MBUFS 8191
#define MBUF_CACHE_SIZE 250
#define BURST_SIZE 32

static const struct rte_eth_conf port_conf_default = {
	// rxmode 用于配置以太网功能的rx
	.rxmode = {
		.max_rx_pkt_len = ETHER_MAX_LEN,	//指定最大的rx数据包长度
	},
};

/* basicfwd.c: Basic DPDK skeleton forwarding example. */

/*
 * Initializes a given port using global settings and with the RX buffers
 * coming from the mbuf_pool passed as a parameter.
 */
static inline int
port_init(uint16_t port, struct rte_mempool *mbuf_pool)
{
	// 该结构体是用于配置以太网端口的结构体
	struct rte_eth_conf port_conf = port_conf_default;
	const uint16_t rx_rings = 1, tx_rings = 1;
	uint16_t nb_rxd = RX_RING_SIZE;
	uint16_t nb_txd = TX_RING_SIZE;
	int retval;
	uint16_t q;
	// 以太网设备信息结构体
	struct rte_eth_dev_info dev_info;
	// 配置以太网tx ring结构体
	struct rte_eth_txconf txconf;

	// 检测是否是一个有效的port
	if (!rte_eth_dev_is_valid_port(port))
		return -1;

	// 获取网卡设备信息
	rte_eth_dev_info_get(port, &dev_info);
	// 判断网卡设备是否支持快速释放mbuf
	if (dev_info.tx_offload_capa & DEV_TX_OFFLOAD_MBUF_FAST_FREE)
		port_conf.txmode.offloads |=
			DEV_TX_OFFLOAD_MBUF_FAST_FREE;

	/* Configure the Ethernet device. */
	/*
		port: 网卡编号
		rx_rings: 接收队列个数
		tx_rings: 发送队列个数
		port_conf: 指向网卡设备配置结构体
	*/
	retval = rte_eth_dev_configure(port, rx_rings, tx_rings, &port_conf);
	if (retval != 0)
		return retval;
	// 检查Rx和Tx描述符的数量是否满足以太网设备信息中的描述符限制,否则将其调整为边界。
	retval = rte_eth_dev_adjust_nb_rx_tx_desc(port, &nb_rxd, &nb_txd);
	if (retval != 0)
		return retval;

	/* Allocate and set up 1 RX queue per Ethernet port. */
	for (q = 0; q < rx_rings; q++) {
		/*
			分配并设置以太网设备的接收队列
			port: 网卡编号
			q:设置的队列索引
			nb_rxd: 分配给接收队列的描述符数量
			rte_eth_dev_socket_id(port): socket id
			NULL: 指向要用于接收队列的配置数据的指针。允许使用NULL值,在这种情况下,将使用默认的RX配置。
			mbuf_pool: mbuf缓存池
		*/
		retval = rte_eth_rx_queue_setup(port, q, nb_rxd,
				rte_eth_dev_socket_id(port), NULL, mbuf_pool);
		if (retval < 0)
			return retval;
	}

	txconf = dev_info.default_txconf;
	txconf.offloads = port_conf.txmode.offloads;
	/* Allocate and set up 1 TX queue per Ethernet port. */
	for (q = 0; q < tx_rings; q++) {
		/*
			分配并设置以太网设备的发送队列
			port: 网卡编号
			q:设置的队列索引
			nb_rxd: 分配给发送队列的描述符数量
			rte_eth_dev_socket_id(port): socket id
			txconf: 配置传输队列的配置指针
		*/
		retval = rte_eth_tx_queue_setup(port, q, nb_txd,
				rte_eth_dev_socket_id(port), &txconf);
		if (retval < 0)
			return retval;
	}

	/* Start the Ethernet port. */
	retval = rte_eth_dev_start(port);
	if (retval < 0)
		return retval;

	/* Display the port MAC address. */
	struct ether_addr addr;
	// 获取设备的mac地址
	rte_eth_macaddr_get(port, &addr);
	printf("Port %u MAC: %02" PRIx8 " %02" PRIx8 " %02" PRIx8
			   " %02" PRIx8 " %02" PRIx8 " %02" PRIx8 "\n",
			port,
			addr.addr_bytes[0], addr.addr_bytes[1],
			addr.addr_bytes[2], addr.addr_bytes[3],
			addr.addr_bytes[4], addr.addr_bytes[5]);

	/* Enable RX in promiscuous mode for the Ethernet device. */
	// 在混杂模式下启用接收
	rte_eth_promiscuous_enable(port);

	return 0;
}

/*
 * The lcore main. This is the main thread that does the work, reading from
 * an input port and writing to an output port.
 */
static __attribute__((noreturn)) void
lcore_main(void)
{
	uint16_t port;

	/*
	 * Check that the port is on the same NUMA node as the polling thread
	 * for best performance.
	 */
	RTE_ETH_FOREACH_DEV(port)
		if (rte_eth_dev_socket_id(port) > 0 &&
				rte_eth_dev_socket_id(port) !=
						(int)rte_socket_id())
			printf("WARNING, port %u is on remote NUMA node to "
					"polling thread.\n\tPerformance will "
					"not be optimal.\n", port);

	printf("\nCore %u forwarding packets. [Ctrl+C to quit]\n",
			rte_lcore_id());

	/* Run until the application is quit or killed. */
	for (;;) {
		/*
		 * Receive packets on a port and forward them on the paired
		 * port. The mapping is 0 -> 1, 1 -> 0, 2 -> 3, 3 -> 2, etc.
		 */
		RTE_ETH_FOREACH_DEV(port) {

			/* Get burst of RX packets, from first port of pair. */
			struct rte_mbuf *bufs[BURST_SIZE];
			// 从prot指定的网卡中获取数据,存储到bufs二维数组中,最大的个数为BURST_SIZE。返回接收的rx的数量。
			const uint16_t nb_rx = rte_eth_rx_burst(port, 0,
					bufs, BURST_SIZE);

			if (unlikely(nb_rx == 0))
				continue;

			/* Send burst of TX packets, to second port of pair. */
			// 这里非常巧妙的使用了一个亦或操作,0号网卡的数据将转到1  1号网卡的数据将转到0
			// 发送数据
			const uint16_t nb_tx = rte_eth_tx_burst(port ^ 1, 0,
					bufs, nb_rx);

			/* Free any unsent packets. */
			// 如果发送的数据不等于接收到的数据(唯一出现的就是发送的个数少于接收的)
			if (unlikely(nb_tx < nb_rx)) {
				uint16_t buf;
				for (buf = nb_tx; buf < nb_rx; buf++)
					// 释放没有发送完成的mbuf, TODO: 这里有个注意的点,接收的buf在发送后应该被发送函数释放了,所以我们在这个地方只需要关注没有释放的
					rte_pktmbuf_free(bufs[buf]);
			}
		}
	}
}

/*
 * The main function, which does initialization and calls the per-lcore
 * functions.
 */
int
main(int argc, char *argv[])
{
	struct rte_mempool *mbuf_pool;
	unsigned nb_ports;
	uint16_t portid;

	/* Initialize the Environment Abstraction Layer (EAL). */
	int ret = rte_eal_init(argc, argv);
	if (ret < 0)
		rte_exit(EXIT_FAILURE, "Error with EAL initialization\n");

	argc -= ret;
	argv += ret;

	/* Check that there is an even number of ports to send/receive on. */
	// 返回可用的以太网卡个数
	nb_ports = rte_eth_dev_count_avail();
	if (nb_ports < 2 || (nb_ports & 1))
		rte_exit(EXIT_FAILURE, "Error: number of ports must be even\n");

	/* Creates a new mempool in memory to hold the mbufs. */
	//Mbuf主要用来封装网络帧缓存,也可用来封装通用控制信息缓存    
	/* 新建一个mbuf内存池.
		NUM_MBUFS * nb_ports: 为每个网卡建NUM_MBUFS*网卡个数的mbuf
		MBUF_CACHE_SIZE :代表的是每个mp的cache大小
		0: 每一个mbuf私有数据空间的大小,不需要直接设置为0即可
		RTE_MBUF_DEFAULT_BUF_SIZE: mbuf的数据报文的大小,理论上需要加上room head的大小,建议使用默认值RTE_MBUF_DEFAULT_BUF_SIZE
		rte_socket_id(): 申请内存的socket,不清楚设置那个的直接使用rte_socket_id()即可
	*/
	mbuf_pool = rte_pktmbuf_pool_create("MBUF_POOL", NUM_MBUFS * nb_ports,
		MBUF_CACHE_SIZE, 0, RTE_MBUF_DEFAULT_BUF_SIZE, rte_socket_id());

	if (mbuf_pool == NULL)
		rte_exit(EXIT_FAILURE, "Cannot create mbuf pool\n");

	/* Initialize all ports. */
	RTE_ETH_FOREACH_DEV(portid)
		if (port_init(portid, mbuf_pool) != 0)
			rte_exit(EXIT_FAILURE, "Cannot init port %"PRIu16 "\n",
					portid);

	// 判断指定的内核个数
	if (rte_lcore_count() > 1)
		printf("\nWARNING: Too many lcores enabled. Only 1 used.\n");

	/* Call lcore_main on the master core only. */
	lcore_main();

	return 0;
}

程序流程

为了更好的方便理解,我画了程序的流程图。

dpdk vfio 开发_网络


在上面的流程图中也已经将网络数据包的初始化流程简介清楚了。再总结一下

  1. 分配mbuf
  2. 配置prot(网卡)
  3. 分配和配置发送接收队列
  4. 启动网卡

运行程序

在这里需要说明一点,该该程序运行的是否必须指定一个核心,同事需要指定2的倍数的网卡。我这里绑定了2张网卡。

import os
if __name__ == "__main__":
    os.system("export RTE_SDK=/home/yangpf/dpdk-stable-18.11.9")
    os.system("export RTE_TARGET=x86_64-native-linuxapp-gcc")
    os.system("modprobe uio")
    os.system("insmod ./x86_64-native-linuxapp-gcc/kmod/igb_uio.ko")
    os.system("mkdir -p /mnt/huge && echo 512 > /sys/devices/system/node/node0/hugepages/hugepages-2048kB/nr_hugepages")
    os.system("ifconfig ens37 down && ifconfig ens38 down")
    os.system("./usertools/dpdk-devbind.py --bind=igb_uio ens37")
    os.system("./usertools/dpdk-devbind.py --bind=igb_uio ens38")

接着运行程序
./basicfwd -l 1 -n 4

dpdk vfio 开发_以太网_02


观察测试结果

由于网卡被dpdk绑定,那么该网卡不再被eth工具接管。所以我们使用ifconfig的时候是看不到该网卡的。

dpdk vfio 开发_dpdk vfio 开发_03


并且此时的网卡没有ip地址。那么我们怎么测试呢?

dpdk官方提供了一个工具pktgen-dpdk。我们可以运行pktgen-dpdk工具来进行收发包测试。(pktgen-dpdk工具很重要,网上的例程不多,我会抽时间将移植过程和使用方法以博客的方式给出。pktgen-dpdk是必须掌握的,不然直观的看到dpdk程序的运行效果)

  • basicfwd 运行前

在程序运行前,网卡的速率都不是很大。

  • basicfwd 运行中

    我们在程序运行起来后,我们可以看到数据包被转发到另一个网卡,两个网卡的速率都达到很大的速率。