java 爬简历 javaweb爬虫

转载

mob6454cc65e0f6 2023-07-20 10:04:13

文章标签 java 爬简历 ide List ooc 文章分类 Java 后端开发

说到爬虫呢当然是python最适合干的事但是java呢基于这个庞大成熟的生态圈，也有一些不错的爬虫框架可以在实际项目中使用的。
webMagic就是今天的主角它在github上的start数量达到了近7000 很了不起了并且这个是我们国人开发的哦。
简单介绍下吧：
webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发
项目结构
webmagic主要包括两个包：
webmagic-core
webmagic核心部分，只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
webmagic-extension
webmagic的扩展模块，提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
webmagic还包含两个可用的扩展包，因为这两个包都依赖了比较重量级的工具，所以从主要包中抽离出来，这些包需要下载源码后自己编译：
webmagic-saxon
webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具，webmagic依赖Saxon来进行XPath2.0语法解析支持。
webmagic-selenium
webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具，webmagic依赖Selenium进行动态页面的抓取。
在项目中，你可以根据需要依赖不同的包。
详细介绍看这里这里写链接内容文档很详细。
看看它的架构图吧：

java 爬简历 javaweb爬虫_ooc

看看我们的实例代码：

package com.lq.pc.webmagic;

import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.*;

/**
 * 爬取慕课网全部免费视频信息（这里是主要的视频url 和标题信息）
 */
@Slf4j
public class MukeProcessor implements PageProcessor {
    //保存信息
    private static HashMap<String, List<String>> map = new HashMap<>();
    private static final String START_URL = "^https://www.imooc.com/course/list$";
    private static final String START_URL2 = "https://www.imooc.com/course/list";
    private static final String DETAIL = "https://www.imooc.com/learn/\\d{1,8}";
    private static final String NEXT_PAGE = "^https://www.imooc.com/course/list\\?page=\\d*$";
    private static int count = 0;
    private static Spider spider = Spider.create(new MukeProcessor());
    private String keyTitles = "titles";
    private String keyUrls = "keyUrls";
    private Site site = Site.me()
            .setDomain("www.baidu.com")
            .setSleepTime(1131)
            .setCharset("utf-8")
            .setRetrySleepTime(2)
            .setTimeOut(3000)
            .setUserAgent(
                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");


    @Override
    public void process(Page page) {
        log.info("the  get  url  is  {}", page.getUrl().toString());
        if (page.getUrl().regex(START_URL).match() || page.getUrl().regex(NEXT_PAGE).match()) {
            List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[1]/div").links().all();
            String next = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[2]/a[8]").links().toString();
            list.add(next);
            page.addTargetRequests(list);
        } else if (page.getUrl().regex(DETAIL).match()) {
            List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a").links().all();
            List<String> titles = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a/text()").all();
            map.put(keyTitles + count, titles);
            map.put(keyUrls + count, list);
        } else {
        }
        count++;
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        long start = System.currentTimeMillis();
        log.info("spider  is  start  now !!!");

        spider
                .thread(10).addUrl(START_URL2)
                .run();
        long end = System.currentTimeMillis();
        log.info("spider  is  end  now !!!");
        log.info("the  under   is   result");
        Set<Map.Entry<String, List<String>>> entries = map.entrySet();
        log.info("###########################################");
        for (Map.Entry<String, List<String>> entry : entries) {
            String key = entry.getKey();
            List<String> values = entry.getValue();
            values.forEach(s -> {
                log.info("the ke is {},the value is {}", key, s);
            });
            log.info("----------------------------------");
        }
        log.info("###########################################");
        log.info("the  count  is  {}", count);
        log.info("cost  time  is :"+(end-start)/1000+"s");


    }
}

是不是很方便呢，可以直接运行的这段代码。
这个框架也有一些缺点
1 没支持动态ip代理你的自己去实现
2 没支持随机时间访问
3 当爬取大量的数据时我们就会产生大量的url 这这个框架的去重默认使用hashset的
数据量不大的时候是可以接受的，但是一旦数据量达到千万条的时候，估计就要报OOM了
建议：布隆过滤器

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。