数据与信息
信息就是对客观事物的反映,从本质上看信息是对社会,以及自然界中事物的特征、现象、本质及规律的描述。
数据是载荷或记录信息的按一定规则排列组合的物理符号,可以是数字、文字、图像,也可以是计算机代码。
信息是客观事物性质或特征在人脑中的反映,信息只有通过数据形式表示出来才能被人理解和接收。数据是信息的具体表现形式,数据经过加工处理之后,成为信息。
计算机中的数据
计算机中采用二进制有以下优点:
在物理上最容易实现。 算术运算规则简单,容易实现。
两个符号“1”和“0”正好与逻辑值“是”(或称“真”)和“否”(或称“假”)相对应,为计算机实现逻辑运算和程序中的逻辑判断提供了便利条件。
只有0和1两种数字符号,在存储、处理和传输过程中的可靠性最强,不易出错,提高了计算机本身的稳定性和可靠性。
例如,可以只用高、低两个电平表示“1”和“0”,也可以用脉冲的有无或者脉冲的正负极性表示它们。
计算机中数据的单位
计算机中数据的常用单位有位和字节
1.位(bit)
在计算机中数据的最小单位是位,位是指一位二进制数。
1 KB=1024 B=210 B
1 MB=1024 KB=1024×1024 B=220 B
1 GB=1024 MB=1024×220 B=230 B
1 TB=1024 GB=1024×230 B=240 B
千字节(KB)、兆字节(MB)、吉字节(GB)和太字节(TB)等单位也可以表示存储容量
2.字节(Byte)
字节是计算机中用来表示存储空间大小的最基本的容量单位,一个字节由8个位组成。
进位计数制及转换
1.什么是数制
所谓数制,就是人们利用符号来计数的科学方法,又称计数制。
数制有很多种,如最常使用的十进制、钟表的六十进制、年月的十二进制等,它们均是进位计数制,是指按进位的原则进行计数。进位计数制有数码、基数和位权三个要素。
一般来说,若把各种进位计数制统称为R进制,则R进位制具有下列特点。
(1)数码
指具有R个不同的数字符号:0,1,…,(R-1)。
(2)基数
基数是“R”。进位制的基数是指该进位制中允许选用的基本数码的个数。
例如:
十进制,有十个数码(0,1,2,3,…,9),故其基数R为10;
二进制,有两个数码(0,1),故其基数R为2。
(3)位权
指一个数字在某个固定位置上所代表的值,处在不同位置上的数字所代表的值不同,每个数字的位置决定了它的值或者位权。
例如:
十进制中,数字6在十位数位置上表示60,在百位上表示600,而在小数点后第1位则表示0.6。
每个数码所代表的真正数值等于该数码乘以一个与数码位置相关的常数,这个常数就叫位权
位权的大小是以基数R为底、数码所在位置的序号为指数的整数次幂。
位置序号排列规则如下:
小数点左边,从右至左分别为0,1,2,…;
小数点右边,从左至右分别为-1,-2,-3,…。
位权按“逢R进一”的规则进行计数。
例如:
十进制12506.23的展开式为:
(12506.23)10=1×104+2×103+5×102+0×101+6×100+2×10-1+3×10-2
二进制11011.01的展开式为:
(11011.01)2=1×24+1×23+0×22+1×21+1×20+0×2-1+1×2-2
为了标识不同的数制,可在数的后面加上后缀字符:
(如D(十进制)、B(二进制)、Q(八进制)、H(十六进制))
可以将数用圆括号括起来:
(如10,2,8,16)表示该括号内的数是哪一种进位制中的数。
例如,二进制数11001.01可以表示成11001.01B或(11001.01)2。
对十六进制数,若打头的数为A~F,则应在A~F之前加一个0,以表示这是一个数而不是其他符号。
同样,23466Q和(23DC.FF)16都是合法的表示形式。表1-1中列出了计算机中常用的数制。若不注明数制,则默认为十进制。
计算机中常见的各种进制之间的对应关系如表1-2所示。
2.非十进制数转换为十进制数
非十进制数转换为十进制数的方法:将非十进制数各位按位权展开求和即可。
【例1-1】 将十进制数43.625转换为二进制数。
(2)二进制与十六进制之间的转换
二进制数转换为十六进制数,以小数点为界,整数部分从小数点开始向左每四位一组,不足四位在左边以0补足四位,小数部分从小数点开始向右每四位一组,不足四位在右边以0补足四位,然后将每组二进制转为相应的十六进制数。
十六进制数转换为二进制数,只需将每位十六进制数转换为相应的四位二进制数即可。
信息的编码
信息需要按照规定好的二进制形式表示才能被计算机处理,这些规定的形式就是信息编码。
信息的类型
简单的类型:数字和文字
复杂的类型:表格、声音、图形和图像
编码时要考虑信息的特性,并且要方便计算机的存储和处理,还涉及世界范围内有关信息的表示、交换、处理、存储的基本问题。
1.BCD码
BCD码专门解决用二进制数表示十进数的问题。
表1-3所示为十进制数0~9与其BCD码的对应关系。
2.ASCII码
在计算机系统中使用最广泛的是美国标准信息交换代码,
即ASCII码(American Standard Code for Information Interchange)
ASCII码有7位版本和8位版本
国际通用
包括32个通用控制字符、10个十进制数码、52个英文大小写字母和34个专用符号,共128(即27)个元素。
需要用7位二进制数b7b6b5b4b3b2b1进行编码,以区分每个字符,
ASCII码表中有每个通用控制字符代表不同的含义,其具体含义如表1-5所示。
3.汉字的编码
(1)国标码
1980年我国颁布了《信息交换用汉字编码字符集·基本集》(GB 2312-80),这个标准所收集的字符及其编码称为国标码,又叫国标交换码。
(2)区位码
区位码指出了该汉字或字符在字符集中的位置,区位码与汉字是一一对应的。
例如,汉字“啊”,它的区位码是1601,即“啊”位于第16区的第1位。
汉字的区位码和国标码之间是有联系的,每个汉字的区号和位号加上十进制数32或十六进制20H之后,对应的二进制代码才是它的国标码。
例如,“啊”字的区号和位号分别为16,01,区号和位号各加上32得48,33,将48,33各用7位二进制数表示,分别是0110000和0100001,再把最高位前各加1个0,得十六位二进制数0011000000100001,将二进制数转换成十六进制数(3021)16就是它的国标码。 也可将区号和位号16,01转化为十六进制10H和01H,直接各加20H,同样得到“啊”的国标码(3021)16。国标码和区位码的关系如下:
国标码=区位码+2020H
(3)机内码
供计算机系统内部进行存储、加工处理、传输等统一使用的代码,又称为汉字内部码或汉字内码。
例如,“啊”字的国标码为(3021)16,对应的二进制数为0011000000100001,将前后两个字节的最高位置为1得1011000010100001,即十六进制数(BOA1)16是它的机内码。由于每个字节的最高位为1,而27=128=80H。
汉字的机内码和国标码的对应关系如下:
机内码=国标码+8080H
(4)汉字的输入码
汉字输入码又称外码,是为了将汉字输入到计算机而设计的代码。
汉字输入码可分为:
数字码(如区位码、电报码)、
拼音码(如智能全拼、智能ABC、搜狗拼音)、
字形码(如五笔字型、表形码)、
音形码(如自然码、全息码)
语音识别
汉字的输入码与汉字的机内码是不同范畴的概念。无论采用什么样的编码输入法来输入一个汉字,其机内码都是相同的。
(5)字形码
汉字字形码是汉字字库中存储的汉字字形的数字化信息,用于汉字的显示和打印。目前,计算机中汉字字形的产生方式大多是数字式,即以点阵方式形成汉字。
常用的字形点阵有16×16点阵、24×24点阵、64×64点阵等。图1-1为汉字“大”的16×16点阵字形码。
一个汉字16×16点阵字形码需要占用16×16位,即16/8×16=2×16 B的存储容量。
24×24点阵字形码需要占用72 B的存储容量。
48×48点阵字形码需要占用288 B的存储容量。
一个汉字方块中行数、列数分的越多,描绘的汉字也越精致,但占用的存储空间也越大。
从汉字代码的转换角度出发,汉字信息处理的过程如图1-2所示。