计算机体系结构之并行机制知识点总结

原创

wx5f184b1820e35 2024-01-08 17:40:44 ©著作权

文章标签 指令集并行性 Parallelism 文章分类 代码人生

©著作权归作者所有：来自51CTO博客作者wx5f184b1820e35的原创作品，请联系作者获取转载授权，否则将追究法律责任

cpu支持哪些指令集，是硬件结构决定的，还是软件方式实现的？

CPU 支持的指令集是由其硬件结构决定的。指令集是一组与硬件交互的底层机器指令，它定义了 CPU 能够执行的基本操作，包括算术运算、逻辑操作、内存访问等。不同的 CPU 架构具有不同的指令集。

在硬件层面，CPU 的设计决定了它支持的指令集。常见的 CPU 指令集体系结构包括：

x86 指令集：主要用于 Intel 和 AMD 的 x86 架构，包括 x86-32 和 x86-64（也称为 AMD64 或 Intel 64）。

ARM 指令集：主要用于 ARM 架构处理器，广泛应用于移动设备、嵌入式系统和一些服务器领域。

MIPS 指令集：主要用于 MIPS 架构处理器，常见于一些嵌入式系统和网络设备。

PowerPC 指令集：主要用于 IBM Power 架构和一些嵌入式系统。

RISC-V 指令集：是一种开放标准的指令集架构，逐渐得到了广泛的支持。

指令集的选择对于 CPU 的性能和功能有很大影响。不同的指令集可能提供不同的性能特性、并行处理能力和功耗特性。软件开发人员在编写应用程序时通常需要考虑目标硬件的指令集，以优化程序的性能和充分利用硬件功能。

虽然指令集是硬件设计的一部分，但在软件层面，编译器和汇编器的工作是将高级语言代码或汇编语言代码翻译成特定硬件架构所需的指令。编写的高级语言代码可以通过编译器转换为适用于目标 CPU 指令集的机器码。因此，软件工具起到了将高级抽象转换为底层硬件指令的桥梁作用。

一个cpu的硬件电路是固定的，为何可以支持多种指令集？

支持多种指令集的 CPU 的能力通常是通过微架构（Microarchitecture）的设计实现的，而不是通过硬件电路的更改。微架构是指 CPU 内部实现的具体细节，它可以被设计为在保持相同硬件电路的情况下支持多个不同的指令集。

以下是一些使 CPU 支持多种指令集的常见方法：

可编程控制单元（Programmable Control Unit）： CPU 内部的控制单元通常是可编程的，可以通过微码（Microcode）进行配置。微码是一种将高级指令映射到底层硬件控制信号的低级指令。通过更改微码，可以重新配置 CPU 的指令集。

指令翻译层（Instruction Translation Layer）：一些 CPU 设计中包含了指令翻译层，可以将一种指令集翻译成另一种。这种技术通常在处理器的硬件和微码层面提供了一种中间层，允许 CPU 在运行时支持多个指令集。

模拟器或虚拟机支持：有些 CPU 具有硬件层面的支持，可以在运行时模拟或虚拟另一种指令集。这使得 CPU 可以在不同的模式下运行，支持不同的指令集。

可配置的功能单元：一些 CPU 具有可配置的功能单元，允许部分硬件电路的配置以支持不同的指令集。这可能包括可配置的运算单元、存储单元等。

需要注意的是，即使 CPU 可以支持多种指令集，软件开发者仍然需要编写特定于目标指令集的代码。编译器和汇编器等工具的作用在于将高级语言代码或汇编语言代码转换为目标指令集的机器码。支持多种指令集并不意味着所有的指令集都可以在同一时刻执行，而是通过配置或切换来实现。

并行级别分类

指令级并行（Instruction-Level Parallelism，ILP）：

定义：指令级并行是指在单个处理器上同时执行多条指令的能力。这可以通过将指令流水线化、超标量执行、乱序执行等技术来实现。
实现：处理器尝试在一个时钟周期内执行多个指令的不同阶段，从而提高指令的整体执行速度。

线程级并行（Thread-Level Parallelism，TLP）：

定义：线程级并行是指在多个处理器或多个处理器核心上同时执行多个线程的能力。每个线程都是独立的执行序列。
实现：多核处理器、多处理器系统或并行计算机集群可以实现线程级并行，其中每个处理器核心或处理器负责执行一个线程。

数据级并行（Data-Level Parallelism，DLP）：

定义：数据级并行是指在相同的指令序列上对多组数据执行相同的操作，以加速整体处理。
实现： SIMD（Single Instruction, Multiple Data）和SIMT（Single Instruction, Multiple Threads）架构是数据级并行的实现方式。向量处理器、GPU 和一些加速器是支持数据级并行的硬件。这三种并行级别通常被综合使用，以充分发挥计算机系统的性能。此外，还有一些其他的并行性分类方式，例如任务级并行（Task-Level Parallelism，TLP），即在不同的任务或算法之间并行执行，以及流水线级并行（Pipeline-Level Parallelism），指通过将计算任务划分为不同的阶段并在每个阶段并行执行来提高整体性能。

总体而言，并行性的分类取决于处理器架构、应用程序设计和硬件体系结构的特性。不同的并行性级别可以同时存在，并通过合理的设计和调优来实现更高效的并行计算。

处理机分类及相关性

单处理机（Single Processor）：

定义：单处理机是指计算机系统中只有一个主处理器（CPU），它负责执行所有的计算和控制任务。
特点：单处理机系统中，计算任务和指令执行是按照顺序进行的，没有并行性。这是最基本的计算机体系结构。

多处理机（Multiprocessor）：

定义：多处理机是指计算机系统中具有多个处理器（CPU）的系统，这些处理器可以同时工作，协同完成任务。
特点：多处理机系统允许多个处理器并行执行任务，从而提高整体性能。它可以通过共享内存或分布式内存架构来实现处理器之间的通信。

Vector Processor：

定义： Vector Processor 是一种专门设计用于执行向量操作的处理器。它在单个时钟周期内可以同时对一组数据执行相同的操作。
特点： Vector Processor 具有广泛的数据级并行性，适用于处理大规模数据集的科学和工程应用。GPU 中的 SIMD（Single Instruction, Multiple Data）架构就是一种 Vector Processor。

Array Processor：

定义： Array Processor 是一种专门设计用于执行数组（矩阵）操作的处理器。它可以并行处理数组的多个元素。
特点： Array Processor 的设计目标是处理多维数据结构，通常用于科学计算、信号处理等应用。它可以在一个时钟周期内同时操作数组中的多个元素。关系：

多处理机可以包含多个单处理机，每个单处理机是一个独立的 CPU。 Vector Processor 和 Array Processor 都是特殊设计的处理器，用于加速特定类型的计算任务。它们可以作为多处理机系统中的一部分存在。 GPU 是一种常见的实现了 Vector Processor 架构的处理器，同时也可以包含多个处理单元（流处理器），使其具有多处理机的特性。