把以前博客的东西夜迁移过来吧,这个是以前公司做的,原来放在csdn里面,先切过来。

用多进程实现的 wget多进程抓取的实现,有问题联系我 (微博:偶是周亮)

#!/bin/bash
url_path="-";
WGET_TIMECOUNT=;
WGET_TIME=;
FORK_SLEEP_TIME=;
ONEURL_SLEEP_TIME=;
SPIDER_PID_NUM=;
function usage(){
echo "usage:spider.sh -u url_path -d page_store_dir";
exit ;
}
function version(){
echo "same-source-tools-spider-1.0.0";
exit ;
}
while getopts l:u:d:t:T:s:S:p: OPTION
do
case $OPTION
in
u)url_path=${OPTARG};;
d)spider_dir=${OPTARG};;
t)WGET_TIMECOUNT=${OPTARG};;
T)WGET_TIME=${OPTARG};;
s)FORK_SLEEP_TIME=${OPTARG};;
S)ONEURL_SLEEP_TIME=${OPTARG};;
p)SPIDER_PID_NUM=${OPTARG};;
l)LOG_PATH=${OPTARG};;
h)usage;;
v)version;;
/?)usage;;
esac
done
touch ${LOG_PATH};
#检查抓取文件是否存在
if [ -e ${url_path} ]; then
echo "spider test: ${url_path} is exist" ;
else
echo "url_path spider test: ${url_path} is not exist";
exit ;
fi
#检查存储网页的目录是否存在
if [ -e ${spider_dir} ]; then
echo "spider test: ${spider_dir} is exist" ;
else
echo "spider_dir spider test: ${spider_dir} is not exist";
exit ;
fi
#清除原来的url文件
url_first_path="${spider_dir}/url_0";
if [ -e ${url_first_path} ]; then
rm ${spider_dir}/url_*;
fi
#创建url多进程抓取文件
for ((i=;i<${SPIDER_PID_NUM};i++));do
{
touch ${spider_dir}/url_${i};
}
done
no=;
#向url多进程抓取文件中写入抓取的url
cat ${url_path} | while read line
do
echo $line >> ${spider_dir}/url_${no};
no=$(($no+));
if [ $no -ge ${SPIDER_PID_NUM} ]; then
no=;
fi;
done
#开始多进程抓取
for ((i=;i<${SPIDER_PID_NUM};i++));do
sleep ${FORK_SLEEP_TIME};
{
url_path="${spider_dir}/url_${i}";
if [ -e $url_path ]; then
cat ${url_path} | /
while read url
do
sleep ${ONEURL_SLEEP_TIME};
url_md5=`echo ${url} | md5sum | awk -F" " '{print $1}'`;
wget "${url}" -o ${LOG_PATH}_${url_md5} -O ${spider_dir}/${url_md5} -t ${WGET_TIMECOUNT} -T ${WGET_TIME};
#wget ${url} -o ${LOG_PATH}_${url_md5} -a ${LOG_PATH} -O ${spider_dir}/${url_md5} -t ${WGET_TIMECOUNT} -T ${WGET_TIME};
dateFlag=`date +"%Y%m%d-%H:%M:%S"`;
if [ $? -eq ]; then
echo "${dateFlag} NOTICE:spiderwgetsuccess ${url}" ;
else
echo "${dateFlag} ERROR:spiderwgeterror ${url}" ;
rm ${spider_dir}/${url_md5};
fi
done
else
continue;
fi
} &
done
wait

wget多进程抓取的实现的更多相关文章

  1. 使用wget工具抓取网页和图片 成功尝试

    使用wget工具抓取网页和图片 发表于1年前(2014-12-17 11:29)   阅读(2471) | 评论(14) 85人收藏此文章, 我要收藏 赞7 wget 网页抓取 图片抓取 目录[-] ...

  2. 使用wget工具抓取网页和图片 及 相关工具几个

    想保存一些网页,最后找到这 wget 的 shell脚本,虽然不是太理想,亲测可用呢. 使用wget工具抓取网页和图片   来源 https://my.oschina.net/freestyletim ...

  3. wget全站抓取命令

    wget -r -p -np -k http://www.freebuf.com/ 忽视,避开robots.txt,加一个-e robots=off 用wget避开robots.txt的下载限制 wg ...

  4. PHP多进程编程(3):多进程抓取网页的演示

    我们知道,从父进程到子经常的数据传递相对比较容易一些,但是从子进程传递到父进程就比较的困难. 有很多办法实现进程交互,在php中比较方便的是 管道通信.当然,还可以通过 socket_pair 进行通 ...

  5. Python多进程方式抓取基金网站内容的方法分析

    因为进程也不是越多越好,我们计划分3个进程执行.意思就是 :把总共要抓取的28页分成三部分. 怎么分呢? # 初始range r = range(1,29) # 步长 step = 10 myList ...

  6. Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影

    #利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

  7. Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据--转

    数据来源:数据挖掘入门与实战  公众号: datadw scrapy_jingdong[9]- 京东爬虫.基于scrapy的京东网站爬虫,保存格式为csv.[9]: https://github.co ...

  8. Python 3.6 抓取微博m站数据

    Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ...

  9. wget整站抓取、网站抓取功能;下载整个网站;下载网站到本地

    wget -r   -p -np -k -E  http://www.xxx.com 抓取整站 wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级 - ...

随机推荐

  1. RBF network

    1.radial basis function RBF表示某种距离,$\mu_m$为中心点,相当于将点$x$到中心点的某种距离作为特征转换 Output方法可以根据需求任意选取(比如使用SVM,log ...

  2. Spring、AOP详解

    如何配置AOP查看:Spring.Hello AOP 1.对于拦截规则@Pointcut的介绍: @Pointcut("execution (* cn.raffaello.service.. ...

  3. c++ string.find()函数的陷阱

    string.find(char *)查找字符串中是否包含子串 找到:返回第一个索引 没有找到:返回一个很大的随机数字而不是返回负数(这是个坑) 所以不能这么写if (string.find(str) ...

  4. 纯CSS3实现自定义涂鸦风格的边框

    今天我们要来分享一款基于纯CSS3的自定义边框应用,看上去它像一个Tooltip控件,因为下边框有一个小三角,就像很多地方的引用文本框一样.另外这款CSS3边框是涂鸦风格的,看起来很有个性.用CSS3 ...

  5. 切换tab,并且动态添加标签

    <script type="text/javascript"> /*处理ie7.ie8不兼容getElementsByClassName*/ if(!document. ...

  6. PHP自学4——通过mail函数将feedback界面用户填写表单信息发送至指定邮箱

    这一讲的内容依旧简单(谁叫PO主水平菜,依旧是个弱鸡ORZ),通过PHP的内置mail函数将一个反馈界面的信息发送到指定邮箱.在Windows平台不能直接需要使用该函数,需要下载一个sendmail并 ...

  7. SQL函数:字符串中提取数字,英文,中文,过滤重复字符(转)

    --提取数字 IF OBJECT_ID('DBO.GET_NUMBER2') IS NOT NULL DROP FUNCTION DBO.GET_NUMBER2 GO )) ) AS BEGIN BE ...

  8. 详解VB.net编写DLL(动态链接库、应用程序扩展)文件

    首先,我们启动VS(Visual-Studio简称),我使用的是VS2008版本. 新建一个项目-选择内裤(额...不好意思)→类库 ,名称就默认吧. 编写类库没有窗体设计,因此我们不能使用工具箱中的 ...

  9. c++多线程同步使用的对象

    线程的同步 Critical section(临界区)用来实现“排他性占有”.适用范围是单一进程的各线程之间.它是: ·         一个局部性对象,不是一个核心对象. ·         快速而 ...

  10. Eclipse用法和技巧二十五:eclipse图标的含义

    用了eclipse很久,在使用断点调试的时候才开始关注图标的含义.这才发现eclipse的图标还是很丰富的,熟悉的知道每个图标的含义还是蛮不错的,尤其是在断点调试中.eclipse自带了详细的图标说明 ...