写在前面
下学期开始上计算机网络的课程,现在已经在看相关书籍,希望结合python写出一个网络爬虫程序。利用学习C++后的空余时间来看看Python并在这里总结、记录,就权当是我的备忘录吧。
字符串
Unicode字符串
在Python2中,普通字符串是以8位ASCII码进行存储的,而Unicode字符串则存储为16位unicode字符串,这样能够表示更多的字符集。使用的语法是在字符串前面加上前缀u
在Python3中,所有的字符串都是Unicode字符串
字符串的表示方式
在python中,字符串有4中表示方式:
>>>
>>> #单引号
>>> A='Hello'
>>> #双引号
>>> B="Hello"
>>> #三单引号
>>> C='''Hello'''
>>> #三双引号
>>> D="""Hello"""
>>> print("A:"+A+"\nB:"+B+"\nC:"+C+"\nD:"+D)
A:Hello
B:Hello
C:Hello
D:Hello
>>> #结果相同
>>>
>>>
>>> #单引号
>>> A='Hello'
>>> #双引号
>>> B="Hello"
>>> #三单引号
>>> C='''Hello'''
>>> #三双引号
>>> D="""Hello"""
>>> print("A:"+A+"\nB:"+B+"\nC:"+C+"\nD:"+D)
A:Hello
B:Hello
C:Hello
D:Hello
>>> #结果相同
>>>
从输出可以看到4中字符串的结果是一样的,那为什么要这么麻烦呢?
- 双引号、单引号避免使用转义字符。当字符串中含有引号(如单引号)时,使用与该引号不同(如双引号)包含字符串可以直接使用该引号而不需进行字符转义:
>>>
>>> #使用转义字符的例子:
>>> print('I\'am learning Python')
I'am learning Python
>>> #使用双引号包含字符串不需使用转义字符串:
>>> print("I'am learning Python")
I'am learning Python
>>> #另一个例子:
>>> print('I have learnt "Python" language')
I have learnt "Python" language
>>>
>>>
>>> #使用转义字符的例子:
>>> print('I\'am learning Python')
I'am learning Python
>>> #使用双引号包含字符串不需使用转义字符串:
>>> print("I'am learning Python")
I'am learning Python
>>> #另一个例子:
>>> print('I have learnt "Python" language')
I have learnt "Python" language
>>>
- 三引号使长字符串可直接跨行
单双引号表示的字符串通常要写成一行:
s = "I'am learning Python"
s = "I'am learning Python"
如果要写成多行,就要使用(连行符):
s = "I'am learning \
Python"
s = "I'am learning \
Python"
但是如果你使用三引号,那就不用使用连行符了,直接写吧:
s = """I'am learning
Python""""
s = """I'am learning
Python""""
过长字符串的表示
除了上面所说的使用三单引号或三双引号以及连行符\进行长字符串的跨行表示外,还可以使用圆括号将字符串跨行连接在一起:
s= ("i am a "
"student")
print(s)
s= ("i am a "
"student")
print(s)
结果输出:
>>>
i am a student
>>>
i am a student
使用哪一种方法,根据个人喜好选择。我本人比较喜欢使用三引号,因为比较方便o(^▽^)
转义字符串
上面的示例中\n就是一个转义字符串,它把字符n转义成换行符,相应的其他转义序列有:
转义字符 | 含义 |
\newline | 忽略换行 |
\ | \ |
" | " |
\a | ASCII蜂鸣 |
\b | ASCII退格 |
\f | ASCII走纸 |
\r | 回车CR |
\n | 换行LF |
\t | ASCII制表符 |
\v | ASCII垂直指标 |
\ooo | 给定八进制字符 |
\xhh | 给定8位十六进制字符 |
\uhhhhh | 给定16位十六进制字符 |
\Uhhhh hhhh | 给定32位十六进制字符 |
\N{name} | 给定名称的Unicode字符,name是一个标准Unicode名称 |
取消转义字符的作用——原始字符串
在字符串前使用r前缀,能够使字符串中的转义字符失去转义作用而直接作为字符串输出。例如:
>>>
>>> print("C:\nowhere") #我们想输出c:\nowhere
C:
owhere
>>> #结果却发生了转义
>>> #这时应该使用r产生原始字符串:
>>> print(r"C:\nowhere")
C:\nowhere
>>>
>>>
>>> print("C:\nowhere") #我们想输出c:\nowhere
C:
owhere
>>> #结果却发生了转义
>>> #这时应该使用r产生原始字符串:
>>> print(r"C:\nowhere")
C:\nowhere
>>>
使用+进行字符串拼接
- 连续的两个“”“”可以使两个双引号内的字符串拼接在一起。而实际上这并不是拼接字符串,只是一种书写字符串的特殊方式
>>> print("I'am learing" "python")
I'am learingpython
>>>
>>> print("I'am learing" "python")
I'am learingpython
>>>
- 真正的字符串拼接可以使用** +**:
>>> print ("I'am learning"+"python")
I'am learningpython
>>>
>>> print ("I'am learning"+"python")
I'am learningpython
>>>
数值转换为字符串:str与repr
把值转换为字符串的两种机制。
- str是一个类型,它把值转换为合理形式的字符串
- repr是个函数,它以合法的python表达式的形式来表示值
说明:repr的功能在Python2中可以以反引号来代替,不过Python3已经不再使用反引号。我们应该坚持使用repr。
raw_input函数 与input函数
在python2中,input函数假设用户输入的和一个合法的表达式:
>>> name = input("what is your name? ")
what is your name? "whz"
>>>
>>> name = input("what is your name? ")
what is your name? "whz"
>>>
在上面的例子中,用户必须输入”whz“而不是whz,因为whz并不是一个合法表达式。Python2中提供了raw_input来解决这个使用户觉得繁琐的问题。raw_input把所以输入当原始数据并将其作为字符串存储。
>>> name = raw_input("what is your name? ")
what is your name? whz
>>>
>>> name = raw_input("what is your name? ")
what is your name? whz
>>>
然而,在Python3中raw_input以及并入到input中,所以在Python3我们使用input接收到的数据都会被当成字符串储存起来。
关于字符串的操作等其他内容后续进行介绍。