项目说明:【抓取网页数据】
项目介绍: 采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中
项目步骤: 1.创建匹配模式表 2.请求网页连接 3.过滤文本,并对数据去重处理 4.显示结果
效果展示:
完整代码:
import console;
/*
项目说明:【抓取网页数据】
项目介绍:
采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中
项目步骤:
1.创建匹配模式表
2.请求网页连接
3.过滤文本,并对数据去重处理
4.显示结果
*/
//参考来源:http://bbs.aardio.com/forum.php?mod=viewthread&tid=11218&extra=page%3D1
import web.rest.jsonClient;
var httpUrl="http://www.meijumi.vip/usa/katong/5754.html";
//1.获取用于查找的模式匹配数组
var parttern = {};
table.push(parttern, `ed2k\://[^\s"']+`);
//2.请求网页链接
var http = web.rest.jsonClient();
var magnet = http.api(httpUrl,,parttern);
var urls = magnet.get();
//console.log("采集到的数据列表:");
//for(k,v in urls){
// console.log(k, v);
//}
//3.过滤文本,并对数据去重处理
var resultStr="";
if(urls){
var f = `S01E`;//过滤文本
if(#f){
//筛选结果
urls = table.filter(urls, function(v){
return string.find(v,f);
})
urls = table.unique(urls);//数组去重
}
//提取结果
resultStr = string.join(urls,'\r\n');//将字符串数组使用指定的分隔符合并为一个字符串
}
//4.显示结果
console.log("采集结果:", resultStr)
console.pause(true);