第一个爬虫入门

原创

wx62be9d88ce294 2024-03-06 15:27:33 ©著作权

文章标签 爬虫 HTML CSS 数据 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者wx62be9d88ce294的原创作品，请联系作者获取转载授权，否则将追究法律责任

第一个爬虫

第一个爬虫入门_爬虫

怎样扒网页呢？

其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS。如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML

HTML 70%
JS 20%
CSS 10%

第一个爬虫入门_CSS_02

爬取页面，代码如下：

from urllib.request import urlopen


def reptile():

    # 请求地址
    url = 'https://www.baidu.com/'
    # 发送请求
    resp = urlopen(url)
    # 打印响应数据
    print(resp.read().decode())


if __name__ == '__main__':
    reptile()

第一个爬虫入门_HTML_03

上一篇：Python列表切片slice操作

下一篇：抽象类（abstract class）和接口（interface）有什么区别

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯