读取url_list文件批量下载网页

url_list

http://www.tianyancha.com/company/2412078287

http://www.4399.com/special/1.htm

http://www.we7.cc/

http://kongzhong.tmall.com/

http://dianying.2345.com/

http://www.takefoto.cn/viewnews-1521788.html

http://www.x4jdm.com/bf/429-1-1.html

http://www.douyu.com/546715

http://www.zjedu.gov.cn/default.html

http://dl.xunlei.com/

download.sh

#!/bin/bash

for line in $(cat $)

do

id=$(echo $line| getid | awk '{$id=10000+$1;print $id;}')

echo $line | gethtmlfile $id > "./result/"${id}".html"

done

运行:

[spider@zhangsuosheng]$ chmod +x ./download.sh

[spider@zhangsuosheng]$ ./download.sh url_list

1、sh文件格式

http://www.runoob.com/linux/linux-shell.html

2、bash按行读取文件+bash读取命令行参数

测试文件:url_list_zss

[spider@zhangsuosheng]$ cat url_list_zss

cccccc

ddddddddd

aaaaaa

正确写法:

#!/bin/bash

for line in $(cat $)

do

echo $line

done

[spider@zhangsuosheng]$ chmod +x ./download.sh

[spider@zhangsuosheng]$ ./download.sh url_list

cccccc

ddddddddd

aaaaaa

不合适的写法:

#!/bin/bash

for line in 'cat $1'

do

echo $line

done

[spider@zhangsuosheng]$ chmod +x ./download_testhtml.sh

[spider@zhangsuosheng]$ ./download_testhtml.sh url_list_zss

cat $

https://www.jb51.net/article/122918.htm

3、读取命令行参数

4、加法运算

用的awk

5、读取管道中的标准输入 直接读/xargs

6、变量赋值

7、字符串拼接

https://www.jb51.net/article/44207.htm

Shell脚本:while read line无法读取最后一行的问题

[1]Shell脚本:while read line无法读取最后一行的问题 刚刚利用shell脚本处理日志文件时,发现了一个问题:while read line无法读取到最后一行 通过编辑器可以看到待 ...

一只简单的网络爬虫(基于linux C/C++)————读取命令行参数及日志宏设计

linux上面的程序刚开始启动的时候一般会从命令行获取某些参数,比如以守护进程运行啊什么的,典型的例子就是linux下的man,如下图所示 实现该功能可以使用getopt函数实现,该函数在头文件uni ...

Shell脚本传递带有空格的参数

在另一博文中实现了通过脚本实现将DB2数据库导出到文件,需要传入七个参数,最后一个是一个带有空格字符串,所以传入的时候有点问题,会自动识别空格 ...

python读取命令行参数的方法

1.sys模块 需要模块:sys参数个数:len(sys.argv)脚本名:    sys.argv[0]参数1:     sys.argv[1]参数2:     sys.argv[2] test.p ...

Shell脚本中判断输入变量或者参数是否为空的方法

shell判断一个变量是否为空方法总结 https://www.jb51.net/article/154835.htm 1.判断变量 复制代码代码如下: read -p "input a w ...

《Linux命令行与shell脚本编程大全》 第六章环境变量

很多程序和脚本都通过环境变量来获取系统信息.存储临时数据和配置信息. 6.1 什么是环境变量: bash shell用一个叫环境变量(environment variable)的特性来存储有关shel ...

Shell脚本、Shell脚本结构、date命令的用法、变量

1.Shell脚本: shell是一种脚本语言 目的:可以实现自动化运维,能大大增加运维的效率.2.Shell脚本结构:   #!/bin/bash  以#!/bin/bash开头,即以/bin/ba ...

Shell脚本传递带有空格的参数[摘录自网络]

参数处理 说明 $# 传递到脚本的参数个数 $* 以一个单字符串显示所有向脚本传递的参数 $$ 脚本运行的当前进程ID号 $! 后台运行的最后一个进程的ID号 $@ 与$#相同,但是使用时加引号,并在 ...

node里读取命令行参数

一.process.env process.env属性返回一个包含用户环境信息的对象. 最常见的需求,前端需要根据不同的环境(dev,prd),来调用不同的后端接口.如果用webpack,是这么做的: ...

随机推荐

React-Native 渲染实现分析

前言 React Native与传统的HybirdApp最大区别就是抛开WebView,使用JSC+原生组件的方式进行渲染,那么整个App启动/渲染流程又是怎样的呢? React Native启动流程 ...

JAVA 冒泡算法

每种语言都有冒泡JAVA实现如下: public static void main(String args[]){ System.out.println("Start"); int ...

AngularJs定制样式插入到ueditor中的问题总结

总结一下自己给编辑器定制样式的过程中所遇到的问题,主要是编辑器的二次开发接口,以及用angular定制样式,问题不少,终于在**的帮助下,完成了,还剩下老版本和新版本的交互没有弄好,不过不难.下面分别 ...

android sudio 打包资料汇总

. 混淆2. ...

微信小程序用户信息解密失败导致的内存泄漏问题。

微信小程序获取用户解密的Session_key 然后对 encryptedData进行解密 偶尔报错 时间长了之后会报内存溢出: java.lang.OutOfMemoryError: GC over ...

npm ERR! Refusing to install package with name "webpack" under a package -----

当我们在安装以一些依赖的时候会提示以下报错--------- 问题出在: 这个name 不能使用所需要安装包的名字! 解决方案----- 修改下就行 -- -我将wenpack 改成webpack1 ...

解决Javascript中$(window).resize()多次执行

有些时候,我们需要在浏览器窗口发生变化的时候,动态的执行一些操作,比如做自适应页面时的适配.这个时候,我们需要在窗口拖动的时候去执行代码.但是有些时候,执行的操作比较复杂,我们只希望在窗口拖动完毕之后 ...

Spring Boot 实现RESTful webservice服务端实例

1.Spring Boot configurations application.yml spring: profiles: active: dev mvc: favicon: enabled: fa ...

SQL On Streaming