上一期我给你讲了软中断的基本原理,我们先来简单复习下。
中断是一种异步的事件处理机制,用来提高系统的并发处理能力。中断事件发生,会触发执行中断处理程序,而中断处理程序被分为上半部和下半部这两个部分。
上半部对应硬中断,用来快速处理中断;
下半部对应软中断,用来异步处理上半部未完成的工作。
Linux 中的软中断包括网络收发、定
连夜写篇文章,聊聊如何利用GPU强大的并行计算能力实现Unite Europe 2017上Unity CTO Joachim利用多核CPU实现的大规模群落行为的模拟。 0x00 前言在今年6月的Unite Europe 2017大会上 Unity 的CTO Joachim Ante演示了未来Unity新的编程特性——C# Job系统,它提供了编写多线程代码的
转载
2024-08-22 14:08:09
215阅读
空余时间自己动手撸了一个OpenGL(软渲染),也就是不调用平台提供的OpenGL接口(一般使用GPU实现,下面称为标准OpenGL),而是自己写一套OpenGL接口(CPU实现,下面称为我的OpenGL)来实现3D绘制的功能,实现与标准OpenGL相同的效果。目前我自己写的接口是按照OpenGL标准定义的接口来实现的,也就是OpenGL应用程序只用做少量修改,就能在我
转载
2024-04-24 19:28:35
412阅读
CPU:主要2个厂商Inter:core(酷睿) > pentinum(奔腾) > celeron(赛扬) AMD:athlon(速龙) > semporn(闪龙)主频(GHz)主频越高性能较优越 计算公式 主频=外频/倍频系数 FSB(前端总线 MHz)速度越快较优越高速缓存内置在CPU中进行高速数据交换的
转载
2024-07-05 11:00:11
168阅读
历时5天终于完成了,配置中出现了各种各样的Error,这里记录一下,希望能为正在安装的人提供一点帮助。配置中主要参考博客:安装硬件: GeForce GTX 1070/PCIe/SSE2安装流程细分为如下10个步骤:1、安装依赖包 2、禁用 nouveau 3、配置环境变量 4、NVIDIA驱动安装 5、安装 CUDA 8.0 6、验证 CUDA 8.0 是否安装成功 7、安装 cudnn 8、安
1、升级环境,安装stress-ng工具# 安装epel源,更新系统
yum install -y epel-release.noarch && yum -y update
# 安装stess-ng 的工具
yum install -y stress-ng2、进程上下文切换-模拟场景该命令会启动N*10个进程,再只有N个核的系统上,会产生大量的进程切换,模拟进程间
转载
2024-10-12 07:47:13
111阅读
一、基础1、OpenGL ES 不同版本OpenGL ES 1.X:针对固定功能流水管线硬件 OpenGL ES 2.X:针对可编程流水管线硬件 OpenGL ES 3.X:OpenGL ES 2.0 的扩展2、EGL的主要功能: 1. 和本地窗⼝系统(native windowing system)通讯; 2. 查询可⽤的配置; 3. 创建 OpenGL ES 可⽤的“绘图表面”(draw
转载
2024-05-05 22:40:41
95阅读
题目:gem5-gpu: A Heterogeneous CPU-GPU Simulator 时间:2014 会议/期刊:IEEE Comput. Archit 研究机构: 作者:Jason Power, Joel Hestness, Marc S. Orr, Mark D. Hill, and David A. Woodgem5-gpu: A Heterogeneous CPU-GPU Simu
转载
2024-08-02 19:22:58
396阅读
X 视窗系统(X Window System)是一个分布式的、网络透明的、设备独立的、多任务的 windowing 和制图系统,它提供标准工具箱和协议来构建图形用户界面 (GUI), 在 Unix,类 Unix 系统和 OpenVMS-几乎所有的现代操作系统都支持它。X 为 GUI 环境提供基本的架构:绘制和移动屏幕上的视窗和能与鼠标和/或键盘相交互。xserver提供X服务,X server 不
转载
2024-08-01 15:26:27
87阅读
一、GPU1.GPU与CPU结构差异上图展示了GPU和CPU在结构上的差异,CPU大部分面积为控制器和寄存器,与之相比,GPU拥有更多的ALU(Arithmetic Logic Unit,逻辑运算单元)用于数据处理,而非数据高速缓存和流控制,这样的结构适合对密集型数据进行并行处理。CPU执行计算任务时,一个时刻只处理一个数据,不存在真正意义上的并行,而GPU具有多个处理器核,在一个时刻可以并行处理
转载
2024-04-28 09:03:39
408阅读
显卡加速自从在分子模拟开始使用以来,大大加速了分子力学的模拟速度,引sob大提到的观点“一个家用高端四核处理器加上一张消费级显卡(如RTX2060)就可以超过20核双路服务器”。这里给出一些关于分子模拟如何最大化使用显卡加速的建议。搬运自amber官网(http://ambermd.org/gpus12/),原则上只适用于amber的pmemd,不过分子模拟的算法大多类似,也可以迁移
转载
2024-04-22 07:30:24
144阅读
冯诺依曼式计算机CPU模拟器(双核版) 一、课程设计要求简介 在先前设计的 单核版 基础上,增加一个核心,即实现双线程,进行指定的抢票操作。抢票功能已由给定的文件中的指令实现,只需扩展CPU核心并实现多线程支持。  
转载
2024-08-30 10:27:59
47阅读
本文记录搭建的基本步骤及遇到的问题。0 换国内源+显卡驱动更新更换Ubuntu下载源参考链接:Ubuntu图形界面换源显卡驱动更新法一:通过图形界面 应用程序–>软件与更新–>开发者选项–>勾选提前释放出的更新 软件与更新–>附加驱动–>选择nvidia最新驱动,然后选择应用更改法二:利用终端命令行 打开终端,按照如下步骤(不用输入每行代码前的$),即可更新英伟达驱动
转载
2024-06-28 14:49:30
238阅读
综合是将我们的设计转化为FPGA可以读懂的配置文件的第一个步骤。本文努力从0基础开始向大家说明综合的基本知识和高级技巧。 话说所有的功能都有它应用的环境。在了解某个按钮选项有某个功能的时候,我们更应该了解应该在什么时候什么情况使用它。所以我以这种问答的形式,向大家展示综合过程中可能遇到的方方面面的问题以及解决的方法。 -----------基础知识-------------- 1. 什么是综合?
在网上查阅了大量资料,发现很多博主都是用配置的detectron2+gpu,仅仅找到一篇Window7+cpu 安装detectron2,:windows7+cpu+detectron2安装。由于自己的电脑没有gpu,所以发表此片文章,window11+cpu配置detectron2环境,如果这篇文章对你有帮助,请点赞收藏,感谢支持。本机环境:anacondawindows11cpu注意:很多人的
转载
2024-04-24 10:14:43
131阅读
这次我们准备聊下决定系统计算性能的两大关键指标,1. 浮点运算能力(FLOPS), 2. 内存带宽(Memory Bandwidth)。一· 为什么这两个指标很重要目前无论是嵌入式系统,PC还是大型服务器都遵循了冯.诺依曼结构。对CPU密集型程序来说,执行时候系统的内部交互主要在处理器(包括控制器和运算器)和存储器之间展开,大概是如下图过程。所以CPU的处理能力以及访存的效率对程序的性能
转载
2024-05-22 23:19:44
168阅读
OpenGL 是自己一直比较感兴趣的,刚好最近工作也有 OpenGL 的需求,所以,这里也记录一下学习过程。一. OpenGL ES 是什么?OpenGL (open graphics library)是一个跨平台的图像程序接口,用于调用硬件的2D ,3D 图形处理器,是一种图形处理硬件的标准软件接口。 而 OpenGL ES 是 OpenGL 的分支,针对手机和嵌入式设备,裁减了 OpenGL
转载
2023-09-26 18:56:12
163阅读
要知道,在这个领域中,以往都是微软DeepSeed独占鳌头。此次微信一出手,可以说是直接秒杀了微软:在 8xV100 和 240GB CPU 内存节点上,训练了一个120 亿参数的 GPT 模型,是当前最佳方案DeepSpeed模型规模上限的1.5 倍。但毕竟针对的是大模型,“烧钱”是出了名的难题。而微信AI的派大星就显得相当的亲民了。即使在700美元的个人游戏电脑上,它也可以训练一个7亿参数的
GPUSim是 Nvidia GPU体系结构研究者的常用工具,设计者用各种容器、队列、类模拟了GPU的工作过程。 研究者可以通过阅读、修改其源代码来实现自己对GPU硬件或者调度策略的设计和改进,从而验证自己的设计对性能的影响。修改源码可能造成各种错误,尤其是逻辑错误无法在编译时发现,使得动态调试成为必要的研究手段。首先我们搞清Nvidia GPU通用计算的实现原理,和GPUSim的模拟原理:Nvi
转载
2024-05-05 18:48:32
98阅读
http://antkillerfarm.github.io/浮点运算和代码优化1.浮点运算问题浮点运算在工业中应用非常广泛,但嵌入式CPU通常没有对浮点运算提供直接的硬件支持。而采用标准库提供的软件计算方案,性能又很差。这时就需要使用浮点运算协处理器加速浮点运算。(486之前的PC,CPU和浮点运算协处理器FPU也是分开的,例如i486DX是有FPU的型号,而i486SX则是没有FPU的型号。)
转载
2024-06-13 09:33:50
299阅读