python写简单爬虫的大致步骤

各位博客你们好! 这是我第一次使用博客。以后请多关照

对于python而言,我只是个,嗯。。。算是马马虎虎入门吧,反正是自学的,在python中,比较好学的又简单上手的我认为是爬虫了,而在爬虫的种类中,我最为欣赏的是用requests这个第三方库来爬。

废话不多说,用代码来说话:
import requests #导入第三方库,
response=requests.get(url) #url是你想爬的网页,通过requests中的get方法去请求这个网页,返回的信息交过response这个变量名
response.text #将返回的信息以文本的格式呈现出来
print(response)#将response打印出来,方便检查内容
#写到这,一个网页的内容就被我们全部爬取下来了,接下来要做的就是从这些内容中提取出自己想要的信息
#比如说一个字符串,‘我去年买了个表’,我想提取其中的某个字,我们可以这样写
a=‘我去年买了个表’
a[0] #我
a[1]#去
a[2]#年
a[3]#买
以此类推,也可以这样
a[-1]#表
a[-2]#个
a[-3]#了
以此类推,当然,列表也可以用这个方法
list=[‘haha’,bibibi’,‘jiji’]
list[0]#haha
list[1]#bibibi
list[2]#jiji
聪明的你是不是发现了列表中的第一个是用0来表示,在python中,很大部分是从0开始数的。
以上只是提取信息的方法之一,主要要是针对相应的格式,那如果我们想要提取有着共同内容中的不同内容时我们该肿么办?这时候就需要正则表达式了,在python中,re这个包含几乎所有的正则表达式的模块是内置的,也就是说你不用去下载安装模块了。
通过正则表达式提取内容后我们该怎么保存内容呢?其实非常的简单,
with open(r’想要保存的地址\文件名字.文件格式’, ‘wb’) as f:#打开或者创建一个文件,wb表示以二进制的方式写入,w表示写入,r表示从文件中获取文件内容(read),用f.read()
f.write(data.content) #data.content是你获取到的信息,或提取的最终内容
爬取一个网页的大致步骤就是这样,当然,python爬虫远没有你想的那么简单,因为有一些网站是不喜欢爬虫去爬的,于是就有了反爬措施,当然,它能能反,我们也能反它的反,这就不是那么的轻松了。
这是我第一次玩博客,python也是渣渣一个,这儿我想留一个问题,希望有大佬路过解决:
在pygame中,我想随机生成n多个circle在游戏屏幕上(不是一直随机不停·的变换),并且根据触发事件可以控制某一个或多个circle(改变其中的参数),其实就是像球球大作战那样,吃掉随机生成的小球,并且重新生成消失数量的随机位置大小的小球?