毕业后的第一次面试,是杭州一家不大不小的公司,面试是通过电话进行,期间还是很紧张的(太久没面试的原因,以下是面试官问的一些问题:1.Python的基本数据类型(当时就回答了整型和字符串,其他的脑子一片空白~  六种数据类型:数字(number)、字符串(str)、列表(list)、字典(dict)、元组(tuple)、集合(set)2.如何两个列表的交集和并集?(当时回答了,两个for循环一个个判
转载 2023-11-24 15:34:59
71阅读
目录总结:丁香园一面(技术面)提问:1. 自我介绍2. 之前做的项目3. python多进程多线程的区别python生成器迭代器python装饰器python浅复制深复制python的数据结构python的sort排序,哪个函数说一下常用的python库mysql leftjoin rightjoin unionjoin的区别xpath取第一个和最后一个元素redis的数据结构git工具的使用,
转载 2024-02-25 11:56:30
88阅读
1.什么是爬虫爬虫就是爬取网页数据,只要网页上有的,都可以通过爬虫爬取下来,比如图片、文字评论、商品详情等。一般二言,Python爬虫需要以下几步:找到网页URL,发起请求,等待服务器响应获取服务器响应内容解析内容(正则表达式、xpath、bs4等)保存数据(本地文件、数据库等) 2.爬虫的基本流程找到网页URL,发起请求,等待服务器响应获取服务器响应内容解析内容(正则表达式、xpath
转载 2024-02-25 13:50:55
44阅读
说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的。在这里我们可以使用HttpClient这个第三方jar包。接下来我们使用HttpClient简单的写一个爬去百度的Demo: import java.io.FileOutputStream; im
1.爬虫有哪些模块? 答: URL管理模块:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口 HTML下载模块:从URL管理器中获取未爬取的URL链接并下载HTML网页 HTML解析模块:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据
转载 2018-06-12 19:39:00
109阅读
2评论
Python爬虫面试总结1. 写一个邮箱地址的正则表达式?[A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$2. 谈一谈你对 Selenium 和 PhantomJS 了解Selenium 是一个Web 的自动化测试工具,可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否...
原创 2021-07-19 15:26:58
162阅读
爬虫找工作的救命指南
转载 2023-06-15 10:05:51
186阅读
http 基于 tcp/ip 协议百度是通用性爬虫http 返回的状态码代表成功的是 200网页编码使用的函数式 encode()解码使用的函
原创 2023-09-27 12:15:37
108阅读
爬虫基本原理爬取流程 (1)发起请求: 通过HTTP库向目标发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。 (2)获取响应内容: 如果服务能正常响应,会得到一个Response,Response的内容就是要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。 (3)解析内容: 得到的内容可能是HTML,可以用正则表达式、
转载 2023-06-19 21:09:04
103阅读
Google算法面试面试
原创 2024-01-02 12:10:28
152阅读
Python开发工程师的就业方向非常多,其中一个方向就是python爬虫开发工程师,这也是很多企业热招的岗位之一。如何能提高自己面试的成功率,不仅仅需要开发者在学习工作中不断的积累专业技能知识,最关键的是在面试过程中能正常发挥。下面为大家提供几个Python爬虫工程师面试的题目,希望对大家的面试有帮助。  scrapy 和 scrapy-redis&nbsp
转载 2023-10-07 14:58:13
304阅读
许多自学爬虫(python)的小伙伴因为没有经历过面试所以在找工作之前难免有些抓不住重点,虽然自己有些技术但是因为发挥不好而错失工作机会,本人经过n次面试以后特总结以下面试常见问题,为想要转爬虫的小伙伴提供一些参考。一.项目问题:    一般面试官的第一个问题八成都是问一下以前做过的项目,所以最好准备两个自己最近写的有些技术含量的项目,当然一定要自己亲手写过
转载 2024-01-07 08:20:44
261阅读
文章目录1. 进程,线程,协程2. docker 如何构建镜像, 如何打包3. scrapy_redis 去重原理4. fiddler抓包原理5. headers里参数作用6. cookie 和session7. scrapy 和 scrapy_redis 区别8. 垃圾回收机制9. 常见反爬及处理10. 关系型数据库和非关系型数据库区别11. scrapy 各组件作用12. scrapy_re
转载 2023-07-31 18:54:53
241阅读
简介 本文总结了在爬虫中常见的各种加密算法、编码算法的原理、在 JavaScript 中和 Python 中的基本实现方法,遇到 JS 加密的时候可以快速还原加密过程,有的网站在加密的过程中可能还经过了...
原创 2022-04-29 15:21:12
86阅读
1点赞
前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个:爬虫任务的统一调度爬虫任务的统一去重存储问题速度问题足够“健壮”的情况下实现起来越简单/方便越好最好支持“断点续爬”功能Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。&nbs
转载 2024-01-30 06:17:07
42阅读
Python爬虫是一种通过编写程序自动从互联网上获取数据的技术。下面是Python爬虫的详解:爬虫的基本原理爬虫的基本原理是**通过模拟浏览器的行为**,访问目标网站,并获取目标页面中的数据。Python爬虫可以使用requests库来发送HTTP请求,使用BeautifulSoup库或正则表达式等工具来解析HTML、XML等格式的文档,在提取所需数据时结合相关Python库和算法进行数据清洗、存
Python爬虫总结       爬虫可分为通用爬虫(搜索引擎)、聚焦爬虫(特定网页)、增量式爬虫(只爬更新的内容)等,本文主要总结聚焦爬虫的知识。       爬虫的作用:用来获取数据量大,获取方式相同的网页数据,代替手工获取。    &
转载 2023-07-06 13:59:09
0阅读
# Java爬虫面试题解析 随着互联网的快速发展,爬虫技术在数据抓取、信息收集等方面发挥着越来越重要的作用。本文将通过几个常见的Java爬虫面试题,帮助读者更好地理解爬虫技术的实现原理和应用场景。 ## 流程图 首先,我们通过一个流程图来展示爬虫的基本工作流程: ```mermaid flowchart TD A[开始] --> B[发送请求] B --> C[获取响应内容
原创 2024-07-23 05:05:53
35阅读
 1.python基础:        (1)python基本类型有哪些?        答案:有六个标准类型,分为可变和不可变;可变有:List(列表)、Dictionary(字典)、Set(集合);不可变有:Number(数字)、String(字
前言:在爬虫的开发过程中,有些业务场景需要同时抓取几百个甚至上千个网站,此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点:代码复用,功能模块化。如果针对每个网站都写一个完整的爬虫,那其中必定包含了许多重复的工作,不仅开发效率不高,而且到后期整个爬虫项目会变得臃肿、难以管理。易扩展。多爬虫框架,这最直观的需求就是方便扩展,新增一个待爬的目标网站,我只需要写少量 必要的内容(如抓取规则、解析
  • 1
  • 2
  • 3
  • 4
  • 5