习python已经一个月了,时间过得好快。回顾一下,至今还灭有独立的爬过一个网页(全都需要纠正),但是从某些方面,好像又已经学会了很多。
网上经常有人问,学python爬虫要花多久。我觉得如果答案是在两三天的,一定是有编程或者网页基础。不然就是天才。在我看来,爬虫本身不是一个多高深的技术,但是它还是需要python的基础的。如果是一点儿基础也没有的小白,那开始还是挺磨人的。
向右老师一开始是从编程逻辑(三题),正则表达式和html开始,还有附加的bonus:每天一个linux命令(只好直接无视),对于新人来说,刚开始真是一个大写的懵,甚至有一周厚脸皮的要求不要出新的作业以便让我补作业...然后是跟着向右老师的帖子爬虫(主要是08-10三篇),亦步亦趋,才找到一点感觉。
不过这也不奇怪,在大多数教学的书和视频里,爬虫都是很后面才讲到的。我看得懂的唯二参考书《Python编程快速上手》里,要到第200页才开始上网,在报的城市数据团视频课《从零到一学python爬虫》,也是50个视频之后才真正实战(而且只有两个案例)。在这之前,还是要老老实实的花时间学习python的基础知识,比如向量,字典,条件,循环...确实基础我也没有掌握得很好,爬虫里的嵌套,或者列表提取,我往往就阵亡于此。
前面说《Python编程快速上手》是我唯二看得懂的python教材,另一本自然就是《笨办法学python》。不过看完这本书虽然成就感满满,但对爬虫没什么大用,可以直接忽略的。
自学编程是今年初的事情,主要方向是大数据分析。R语言学了半吊子后开始python。python和R语言比较不同,R语言是统计方向比较强的语言,封装函数比较多,拿来用就好了。跟着敲代码,肯定也能做出来。而python爬虫是一个很动态的过程,就算这个学会了,换到下一个网页,可能还会有不同的坑,总是永无止境的感觉。
不过无论学习什么,只要不是心有抵触,总有出头的一天。毕竟学习路径更为重要,利用python爬虫,也巩固自己的编程学习——对于没有什么基础的小白,python还是比较友好的。以及可以联系其他方面的技能迁移,比如英语,比如数据展现,就是知识节点的蔓延。
初步学了爬虫以后,爬了魔方公寓,自如和链家。其实每一份都没有爬对,都要请教大神和向右老师(汗),不过每份代码我都要打印下来,一方面是自己的和大神改后对比,一方面是各个网站对比。同时写笔记加深记忆,也方便日后翻找。
这样回顾一下,厚脸皮的觉得我好像也python入门了吧……
当然即使是爬虫方面,也还有很多没有学。比如,比如jax,比如scapy,panda...
另外就是希望下半年学会MySql。程工做过一个分享,不过也被我无视了...希望奋起直追。
另外有个副作用是——熟悉了markdown,在咖啡馆写文可以显得很酷。
一点点感悟就是:
在学习压力最大的时候,感觉自己什么都做不出来的时候,其实也是最有可能突破的时候。如果说要什么时候开始是最好的话,那就是现在。