郑昀@玩聚SR 20091013

一、现象

Python中执行左移操作(即将一个数的二进制位整体向左移若干位,移位后在低位补零,高位溢出部分舍弃):

>>>1000<<25结果是:33554432000L而在C#、C++等语言中执行同样的左移操作,结果却迥然不同:

Console.WriteLine(1000<<25);

结果是:-805306368

再举几个Python例子:

>>>1000L<<25 (注:L后缀代表Long数据类型)

33554432000L

>>>-1<<100

-1267650600228229401496703205376L

>>>1<<100

1267650600228229401496703205376L

而C#中执行同样代码,结果有着巨大的差异:

Console.WriteLine(1000L << 25);

33554432000(LONG类型的左移结果是一致的)

Console.WriteLine(-1 << 100);

-16

Console.WriteLine(1 << 100);

16

Javascript的结果也是对的,把下面的代码保存为html文件:

alert(2083363589<<5);

浏览器打开这个html后得到对话框提示:-2051841888,也是正确的。

那么,Python的左移操作为何计算结果如此偏颇呢?

问题何在?

即使是Python 2.5乃至最新的Python 3.1.1都是这个结果

(只不过Python3执行1000<<25的结果是33554432000,没有加L后缀),

莫非这么多年来没人做左移操作吗?

我们先来了解Python怎么定义的吧:

二、Python Doc对左移的定义

A right shift bynbits is defined as division bypow(2,n).A left shift by n bits is defined as multiplication withpow(2,n);

for plain integers there is no overflow check so in that case the operation drops bits and flips the sign if the result is not less thanpow(2,31)in absolute value. Negative shift counts raise aValueErrorexception.

(译文:右移n位可以定义为除以pow(2,n),左移n位可以定义为乘以pow(2,n);对于普通整数是没有溢出检查的,因此若结果的绝对值不小于pow(2,31),这个运算会截掉相应的位并且符号位也在移位处理之列.)

Python的x<

int(x * 2**y)函数。

还不要说负数的左移操作所遇到的问题了:

Shifting negative numbers doesn't have consistent interpretation between python and C.(译文:负数的位移操作,python与C语言的解释是不一致的。)

三、为什么会这样?

Python创始人Guido van Rossum,在今年2月份的博文

中讲述了当初设计Python整数类型时犯下的严重错误,以至于“在特定情况下,integer和long两种整数实现会有语义上的细微不同”,并进一步导致:

“In addition, the int type, while normally considered signed, was treated as

an unsigned number by bitwise and shift operations and by conversions to/from octal and hexadecimal representations. Longs, on the other hand, were always considered signed. Therefore, some operations would produce a different result depending on whether an argument was represented as an int or a long.”

(译文:int类型通常情况下是有符号数,在位操作、位移操作、和8进制/16进制互相转换时则当做无符号数。而相对应的,long类型则总是有符号数。因此,某些操作会因为参数是由int还是long类型表达而产生不同的结果。)

他举例说:在32位运算中,1<<31(1左移31位)是一个32位的大负数,而1<<32结果为0。然而1L<<31(long类型的1左移31位)产生一个long类型整数,值为2**31,1L<<32的结果为2**32。

最开始,他通过让运算结果超出存储范围时抛出溢出异常(OverflowError)修正这一错误,

但很快,于是他修正为:

I should have made integer operations that overflowpromote their result to longs. This is the way that Python works today, but it took a long time to make this transition.

(译文:我应该让溢出的int整数操作结果升级为long类型。这也是今天Python采用的方式,可惜这个修正太晚了。)

但不管怎样,位移操作的问题始终没有被修正。

while True: x = 1 << 64会导致内存泄漏;而while True: 1L << 64则不会。

四、怎么办?

不知道。

我们把左移操作放入C++中,让Python调用。

五、背景介绍

左移运算:

就是将一个数的二进制位整体向左移若干位,移位后在低位补零,高位溢出部分舍弃。所以1<<2就是把整数1的二进制补码00000000 00000000 00000000 00000001(Python的整型数据的位宽是32位,所以要补这么长)整体左移2位,舍弃溢出的高位并在低位补零后得到结果00000000 00000000 00000000 00000100,正好是十进制数4即22的补码。实际上,将一个数左移几位,就相当于将这个数乘以2的几次幂。

类型长度

Python的整型数据的位宽是32位,8个字节。int最大值是2147483647 (sys.maxint),而long长度仅受内存大小限制。

C/C++中,int的长度与机器字长相同,16位的编译器上int长16位,32位的编译器上int长32位。