shell爬虫简易脚本(线程数可控)
1.介绍
以机电之家网站为例
经过初步分析,机电之家的数据量较大,并且数据组织规则较为统一,适合以代码方式进行全量爬取。 企业列表URL统一为http://www.jdzj.com/yp_vlist_1_1.html 的模式,变化的仅为其中的数字,而且企业的黄页均为 :http://xxxx.jdzj.com/的模式。 因此,我们的爬取思路采用遍历企业列表,正则匹配获取企业黄页地址,然后逐次从黄页上获取企业相关信息。
2.批量获取黄页地址:
#!/bin/bash
#trap,捕捉到信号,2表示ctrl+c
trap "exec 6>&-;exec 6<&-;exit 0"
#创建<有名管道>
mkfifo testfifo
exec <>testfifo
rm -rf testfifo
#设置线程数
Thread=128 #指定线程数
for ((n=;n<$Thread;n++))
do
echo >&
done #设置计时器,记录开始时的时间戳
seconds_1=$(date +%s)
#开始获取黄页地址列表
for i in {..};
do j=` curl -i -s http://www.jdzj.com/yp_vlist_{$i}_1.html |grep lblpage |awk '{match($0,/<b>[0-9]*<\/b>/);print substr($0,RSTART+3,RLENGTH-7)}'` for n in `seq $j`; #批量获取子域名并筛选去重
do read -u6
echo "threads: `ps -ef |grep $0|grep -v grep|grep -v vim|wc -l`" #输出当前线程数
echo "Completed: `cat url.txt|wc -l`" #输出当前获取的黄页地址数
echo "######################"
{
curl -i -s http://www.jdzj.com/yp_vlist_{$i}_{$n}.html |awk '{match($0,/http:\/\/[a-zA-Z0-9]+.jdzj.com/);print substr($0,RSTART,RLENGTH)}'| sort | uniq|sed -e '/^$/d' >> url.txt
echo >&
}&
done done wait
#设置计时器,记录结束时的时间戳
seconds_2=$(date +%s) echo "TIME: `expr $seconds_2 - $seconds_1`" exec >&- exec <&-
exit
3.依次获取子域名并提取公司信息
#!/bin/bash
trap "exec 6>&-;exec 6<&-;exit 0" 2
mkfifo testfifo
exec 6<>testfifo
rm -rf testfifo
Thread=32
for ((n=0;n<$Thread;n++))
do
echo >&6
done
seconds_1=$(date +%s)
touch dd.txt
v1=`cat url.txt|wc -l`
for n in `seq 1 $v1`
do
read -u6
echo "threads: `ps -ef |grep $0|grep -v grep|grep -v vim|wc -l`"
echo "Completed: `cat dd.txt|grep 手机|wc -l`"
echo "######################"
{
sed -n ${n}p url.txt |xargs curl -i -s|egrep -A6 lblhtc | sed 's/[a-z{.<>"=_:\/}]/ /g' >t_$n.txt
l=`cat t_$n.txt|wc -l`
if [[ $l -eq 7 ]]
then
i=1
while read line
do
j=`expr $i % 8`
case $j in
1)
echo -n $line | awk '{print$1" "}'>>t_2_$n.txt
;;
2)
;;
3)
echo -n $line | awk '{print$1$3" "}'>>t_2_$n.txt
;;
4)
echo -n $line | awk '{print$PN" "}'>>t_2_$n.txt
;;
5)
echo -n $line | awk '{print$1$3$4$6" "}'>>t_2_$n.txt
;;
6)
echo -n $line | awk '{print$1$3$4$6" "}'>>t_2_$n.txt
;;
7)
echo -n $line | awk '{print$1$3" "}'>>t_2_$n.txt
echo -e -------------------------- >>t_2_$n.txt
cat t_2_$n.txt >> dd.txt
;;
esac
i=`expr $i + 1`
done <t_$n.txt
fi
rm -rf t_2_$n.txt
rm -rf t_$n.txt
echo >& 6
}&
done
wait
seconds_2=$(date +%s)
echo "TIME: `expr $seconds_2 - $seconds_1`"
exec 6>&-
exec 6<&-
exit 0
shell爬虫简易脚本(线程数可控)的更多相关文章
- shell 外部传入jmeter脚本线程数,rampUp时间,持续运行时间
jmeter参数化部分参考上一篇 shell参数说明:$1线程数,$2:全部并发数rampup时间,$3:脚本持续运行时间,$4:每次脚本循环持续时间 $5:所以循环持续时间 #!/bin/bash ...
- 3.jmeter jsr232 脚本获取当前测试的正在活动的线程数
jsr232 groovy 脚本获取当前测试的正在活动的线程数 (需要选择 groovy类型, 如果使用beanshell或者javascript,请根据其语法稍作修改即可) import org.a ...
- 动态调整线程数的python爬虫代码分享
这几天在忙一个爬虫程序,一直在改进他,从一开始的单线程,好几秒一张图片(网络不好),,,到现在每秒钟十几张图片,,, 四个小时586万条数据,,,简直不要太爽 先上图 最终写出来的程序,线程数已经可以 ...
- Linux shell爬虫实现树洞网自动回复Robot
奇怪的赞数 人生在世,不如意事十之八九,可与言者无二三人.幸好我们生在互联网时代,现实中找不到可以倾诉的人还可以在网络上寻找发情绪宣泄口,树洞这类产品就是提供一个让人在网络上匿名倾诉的平台. 我是偶然 ...
- Linux Shell多进程并发以及并发数控制
1. 基础知识准备 1.1. linux后台进程 Unix是一个多任务系统,允许多用户同时运行多个程序.shell的元字符&提供了在后台运行不需要键盘输入的程序的方法.输入命令后,其后紧跟&a ...
- linux与shell介绍 - 进程与线程
linux linux与windows的区别 linux的文件结构 Linux基本命令 ls: 列出目录 cd: 切换目录 pwd: 显示当前目录 mkdir: 创建一个新的目录 rmdir: 删除一 ...
- LINUX最大线程数及最大进程数
查看最大线程数: cat /proc/sys/kernel/threads-max ulimit User limits - limit the use of system-wide resource ...
- IIS连接数、IIS并发连接数、IIS最大并发工作线程数、应用程序池的队列长度、应用程序池的
IIS连接数 一般购买过虚拟主机的朋友都熟悉购买时,会限制IIS连接数,这边先从普通不懂代码用户角度理解IIS连接数 顾名思义即为IIS服务器可以同时容纳客户请求的最高连接数,准确的说应该叫" ...
- 你真的了解:IIS连接数、IIS并发连接数、IIS最大并发工作线程数、应用程序池的队列长度、应用程序池的最大工作进程数 吗?
原文链接:http://www.cnblogs.com/yinhaichao/p/4060209.html?utm_source=tuicool&utm_medium=referral 一般购 ...
随机推荐
- Quill + Framework 7 移动端无法获取焦点
Quill 是一个轻量级的富文本编辑器.最近公司项目中需要用到这个东东.使用方法可以直接查看它的官网地址或者Github地址: Github地址:quilljs 官网地址:quill官网 主要说一下用 ...
- e1087. 用For循环做数组的遍历
The for statement can be used to conveninently iterate over the elements of an array. The general sy ...
- jquery 中json数组的操作(转)
在jquery中处理JSON数组的情况中遍历用到的比较多,但是用添加移除这些好像不是太多. 今天试过json[i].remove(),json.remove(i)之后都不行,看网页的DOM对象中好像J ...
- HttpHelper万能框架GetMergeCookie的问题
用万能框架写了一个DZ带验证码POST登录一直错误 http://www.sufeinet.com/thread-17795-1-1.html 调试半天发现是框架GetMergeCookie的问题,, ...
- css制作上下左右的箭头
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- ubuntu12.04 修改登陆用户 为root
Ubuntu 12.04默认是不允许root登录的,在登录窗口只能看到普通用户和访客登录.以普通身份登陆Ubuntu后我们需要做一些修改,普通用户登录后,修改系统配置文件需要切换到超级用户模式,在终端 ...
- struts2 + spring3 + mybatis3 环境搭建
struts2 + spring3 + mybatis3 1. 框架下载 struts2: http://struts.apache.org/ 下载 struts-2.3.14-all.zip spr ...
- 工具类之数据库工具类:DBUtil(採用反射机制)
常常操作数据库的码农们一定知道操作数据库是一项非常复杂的工作.它不仅要解决各种乱码的问题还要解决各种数据表的增删改查等的操作. 另外每次操作数据库都要用到数据库连接.运行SQL语句.关闭连接的操作.所 ...
- kafka中配置细节
今天遇到kafka发送消息的时候,一直报Kafka“Failed to send messages after 3 tries”错误,根据网上找问题,修改各种配置参数,各种重启,还是解决不了问题. 郁 ...
- m4a文件在iOS上的流媒体播放
Date: 2016-03-23 Title: m4a文件在iOS上的流媒体播放 Tags: m4a, mp4, iOS, Android URL: m4a-streaming-play-on-mob ...