写在前面

下学期开始上计算机网络的课程,现在已经在看相关书籍,希望结合python写出一个网络爬虫程序。利用学习C++后的空余时间来看看Python并在这里总结、记录,就权当是我的备忘录吧。

字符串

Unicode字符串

在Python2中,普通字符串是以8位ASCII码进行存储的,而Unicode字符串则存储为16位unicode字符串,这样能够表示更多的字符集。使用的语法是在字符串前面加上前缀u

在Python3中,所有的字符串都是Unicode字符串

字符串的表示方式

在python中,字符串有4中表示方式:

>>> 
>>> #单引号
>>> A='Hello'
>>> #双引号
>>> B="Hello"
>>> #三单引号
>>> C='''Hello'''
>>> #三双引号
>>> D="""Hello"""
>>> print("A:"+A+"\nB:"+B+"\nC:"+C+"\nD:"+D)
A:Hello
B:Hello
C:Hello
D:Hello
>>> #结果相同
>>> 
>>> 
>>> #单引号
>>> A='Hello'
>>> #双引号
>>> B="Hello"
>>> #三单引号
>>> C='''Hello'''
>>> #三双引号
>>> D="""Hello"""
>>> print("A:"+A+"\nB:"+B+"\nC:"+C+"\nD:"+D)
A:Hello
B:Hello
C:Hello
D:Hello
>>> #结果相同
>>>

从输出可以看到4中字符串的结果是一样的,那为什么要这么麻烦呢?

  • 双引号、单引号避免使用转义字符。当字符串中含有引号(如单引号)时,使用与该引号不同(如双引号)包含字符串可以直接使用该引号而不需进行字符转义:
>>> 
>>> #使用转义字符的例子:
>>> print('I\'am learning Python')
I'am learning Python
>>> #使用双引号包含字符串不需使用转义字符串:
>>> print("I'am learning Python")
I'am learning Python
>>> #另一个例子:
>>> print('I have learnt "Python" language')
I have learnt "Python" language
>>> 
>>> 
>>> #使用转义字符的例子:
>>> print('I\'am learning Python')
I'am learning Python
>>> #使用双引号包含字符串不需使用转义字符串:
>>> print("I'am learning Python")
I'am learning Python
>>> #另一个例子:
>>> print('I have learnt "Python" language')
I have learnt "Python" language
>>>
  • 三引号使长字符串可直接跨行
    单双引号表示的字符串通常要写成一行:
s = "I'am learning Python"
s = "I'am learning Python"

如果要写成多行,就要使用(连行符):

s = "I'am learning \
    Python"
s = "I'am learning \
    Python"

但是如果你使用三引号,那就不用使用连行符了,直接写吧:

s = """I'am learning
    Python""""
s = """I'am learning
    Python""""

过长字符串的表示

除了上面所说的使用三单引号或三双引号以及连行符\进行长字符串的跨行表示外,还可以使用圆括号将字符串跨行连接在一起:

s= ("i am a "
    "student")
print(s)
s= ("i am a "
    "student")
print(s)

结果输出:

>>> 
i am a student
>>> 
i am a student

使用哪一种方法,根据个人喜好选择。我本人比较喜欢使用三引号,因为比较方便o(^▽^)

转义字符串

上面的示例中\n就是一个转义字符串,它把字符n转义成换行符,相应的其他转义序列有:

转义字符

含义

\newline

忽略换行

\

\

"

"

\a

ASCII蜂鸣

\b

ASCII退格

\f

ASCII走纸

\r

回车CR

\n

换行LF

\t

ASCII制表符

\v

ASCII垂直指标

\ooo

给定八进制字符

\xhh

给定8位十六进制字符

\uhhhhh

给定16位十六进制字符

\Uhhhh hhhh

给定32位十六进制字符

\N{name}

给定名称的Unicode字符,name是一个标准Unicode名称

取消转义字符的作用——原始字符串

在字符串前使用r前缀,能够使字符串中的转义字符失去转义作用而直接作为字符串输出。例如:

>>> 
>>> print("C:\nowhere") #我们想输出c:\nowhere
C:
owhere
>>> #结果却发生了转义
>>> #这时应该使用r产生原始字符串:
>>> print(r"C:\nowhere")
C:\nowhere
>>> 

>>> 
>>> print("C:\nowhere") #我们想输出c:\nowhere
C:
owhere
>>> #结果却发生了转义
>>> #这时应该使用r产生原始字符串:
>>> print(r"C:\nowhere")
C:\nowhere
>>>

使用+进行字符串拼接

  • 连续的两个“”“”可以使两个双引号内的字符串拼接在一起。而实际上这并不是拼接字符串,只是一种书写字符串的特殊方式
>>> print("I'am learing"  "python")
I'am learingpython
>>> 
>>> print("I'am learing"  "python")
I'am learingpython
>>>
  • 真正的字符串拼接可以使用** +**:
>>> print ("I'am learning"+"python")
I'am learningpython
>>> 
>>> print ("I'am learning"+"python")
I'am learningpython
>>>

数值转换为字符串:str与repr

把值转换为字符串的两种机制。

  • str是一个类型,它把值转换为合理形式的字符串
  • repr是个函数,它以合法的python表达式的形式来表示值

说明:repr的功能在Python2中可以以反引号来代替,不过Python3已经不再使用反引号。我们应该坚持使用repr。

raw_input函数 与input函数

在python2中,input函数假设用户输入的和一个合法的表达式:

>>> name = input("what is your name? ")
what is your name? "whz"
>>> 
>>> name = input("what is your name? ")
what is your name? "whz"
>>>

在上面的例子中,用户必须输入”whz“而不是whz,因为whz并不是一个合法表达式。Python2中提供了raw_input来解决这个使用户觉得繁琐的问题。raw_input把所以输入当原始数据并将其作为字符串存储。

>>> name = raw_input("what is your name? ")
what is your name? whz
>>>
>>> name = raw_input("what is your name? ")
what is your name? whz
>>>

然而,在Python3中raw_input以及并入到input中,所以在Python3我们使用input接收到的数据都会被当成字符串储存起来。

关于字符串的操作等其他内容后续进行介绍。