java 拿到网站的 host java获取网站内容

转载

我是数据分析师 2023-06-28 18:05:39

文章标签 java 拿到网站的 host 爬虫数据 System 请求参数 文章分类 Java 后端开发

在很多行业当中，我们需要对行业进行分析，就需要对这个行业的数据进行分类，汇总，及时分析行业的数据，对于公司未来的发展，有很好的参照和横向对比。面前通过网络进行数据获取是一个很有效而且快捷的方式。
首先我们来简单的介绍一下，利用java对网页数据进行抓取的一些步骤，有不足的地方，还望指正，哈哈。屁话不多说了。

其实一般分为以下不足：
1：通过HttpClient请求到达某网页的url访问地址（特别需要注意的是请求方式）
2：获取网页源码
3：查看源码是否有我们需要提取的数据
4：对源码进行拆解，一般使用分割，正则或者第三方jar包
5：获取需要的数据对自己创建的对象赋值
6：数据提取保存

下面简单的说一下在提取数据中的部分源码，以及用途：

/**
     * 向指定URL发送GET方法的请求
     *
     * @param url
     *            发送请求的URL
     * @param param
     *            请求参数，请求参数应该是 name1=value1&name2=value2 的形式。
     * @return URL 所代表远程资源的响应结果
     */
    public static String sendGet(String url, String param) {
        String result = "";
        BufferedReader in = null;
        try {
            String urlNameString = url;
            URL realUrl = new URL(urlNameString);
            // 打开和URL之间的连接
            URLConnection connection = realUrl.openConnection();
            // 设置通用的请求属性
            connection.setRequestProperty("accept", "*/*");
            connection.setRequestProperty("connection", "Keep-Alive");
            connection.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 建立实际的连接
            connection.connect();
            // 获取所有响应头字段
            Map<String, List<String>> map = connection.getHeaderFields();

            // 定义 BufferedReader输入流来读取URL的响应
            in = new BufferedReader(new InputStreamReader(
                    connection.getInputStream())); //这里如果出现乱码，请使用带编码的InputStreamReader构造方法，将需要的编码设置进去
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            System.out.println("发送GET请求出现异常！" + e);
            e.printStackTrace();
        }
        // 使用finally块来关闭输入流
        finally {
            try {
                if (in != null) {
                    in.close();
                }
            } catch (Exception e2) {
                e2.printStackTrace();
            }
        }
        return result;
    }

解析存储数据

public Bid getData(String html) throws Exception {
        //获取的数据，存放在到Bid的对象中，自己可以重新建立一个对象存储
        Bid bid = new Bid();
        //采用Jsoup解析
        Document doc = Jsoup.parse(html);
        //  System.out.println("doc内容" + doc.text());
        //获取html标签中的内容tr
        Elements elements = doc.select("tr");
        System.out.println(elements.size() + "****条");
       //循环遍历数据
        for (Element element : elements) {
            if (element.select("td").first() == null){
                continue;
            }
            Elements tdes = element.select("td");
            for(int i = 0; i < tdes.size(); i++){
               this.relation(tdes,tdes.get(i).text(),bid,i+1);
            }
        }
        return bid;
    }

得到的数据

Bid {
    h2 = '详见内容', 
      itemName = '诉讼服务中心设备采购',
      item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品', 
      itemUnit = '详见内容', 
      areaName = '港北区', 
      noticeTime = '2018年10月22日 18:41',
      itemNoticeTime = 'null',
      itemTime = 'null',
      kaibiaoTime = '2018年10月26日 09:00', 
      winTime = 'null',
      kaibiaoDiDian = 'null', 
      yusuanMoney = '￥67.00元（人民币）', 
      allMoney = 'null', 
      money = 'null', 
      text = ''
}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。