shell爬虫

#!/bin/bash

curl_str='curl -x "http://http-pro.abuyun.com:9010" --proxy-basic --proxy-user H78H42TCN191075P:3D1EA6E4F458AB69'

curl_str='curl -L --socks5 socks-cla.abuyun.com:8030 --proxy-user S822RB9T27K96TPC:5E68523C79E62C41'

### encode url

encode_url(){

    local supplier_name_encode="$(echo "$" | tr -d '\n' | xxd -plain | sed 's/\(..\)/%\1/g')"

    echo "https://xin.baidu.com/s?q=${supplier_name_encode}&t=0"|perl -npe 's/\n//'

}

do_down_web_info_html(){

    local url=$(encode_url "$1")

    local html_file="$2"

    # wget ${url} -O ${html_file}

    #echo -e "\n===================================> " ${curl_str} "${url}" \> ${html_file}"\n"

    ${curl_str} "${url}" > ${html_file}

}

get_supplier_pid(){

    local html_file="${1}.html"

    local supplier_name="$2"

    do_down_web_info_html "${supplier_name}" "${html_file}"

    ### 获取pid

    echo $(grep compinfo ${html_file}|head -|awk -F'pid=' '{print $2}'|awk -F'"' '{print $1}')

}

do_down_supplier_unifiedcode(){

    local id="$1"

    local pid="$2"

    ### 获取统一社会信用代码

    local unifiedCode="${id}_unifiedCode"

    local api_basic_url="https://xin.baidu.com/detail/basicAjax?pid=${pid}"

    echo -e "\n 获取统一社会信用代码 ===================================> "${curl_str} "${api_basic_url}" \> ${unifiedCode}"\n"

    ${curl_str} "${api_basic_url}" > ${unifiedCode}

}

do_switch_ip(){

    # ${curl_str} http://proxy.abuyun.com/switch-ip

    echo "do_switch_ip"

}

do_run(){

    local id="$1"

    local supplier_name="$2"

    pid=$(get_supplier_pid "${id}" "${supplier_name}")

    do_down_supplier_unifiedcode "${id}" "${pid}"

    # echo -n $(date "+%F %T")" | ${id} | ${supplier_name} | ${pid} |"

    ### 解析json为csv文件

    # jq -r '[(.data.entName|tostring),(.data.unifiedCode|tostring)]|join("|")' "${id}_unifiedCode"

}

result_file="result_code"

# "上海东福网络科技有限公司广州分公司",""

token(){

    local pid=$

    # 判断是否有传入pid

    if [ -z "${pid}" ]

    then

        echo "please input pid"

        exit

    fi

    # 设置并发数，默认为5

    local concurrency=

    if [ -n "$2" ]

    then

        concurrency=$

        echo "Concurrency: $2"

    fi

    # 创建有名管道,如果fd1不存在则创建

    [ -e /tmp/fd1 ] || mkfifo /tmp/fd1

    # 创建文件描述符，以可读（<）可写（>）的方式关联管道文件，这时候文件描述符999就有了有名管道文件的所有特性

    # 为了让程序有一定的扩展性，不想写死fd，因而引入了变量。

    # 因而引入eval命令，强制shell进行变量展开。

    # eval exec "${fd}>file"简单的说，eval将右边参数整体作为一个命令，进行变量的替换，然后将替换后的输出结果给shell去执行。

    eval exec "${pid}<>/tmp/fd1"

    # 关联后的文件描述符拥有管道文件的所有特性,所以这时候管道文件可以删除，我们留下文件描述符来用就可以了

    [ -e /tmp/fd1 ] && rm -f /tmp/fd1

    # 初始化并行数

    for ((i=;i<=${concurrency};i++))

    do

        # &999代表引用文件描述符999，这条命令代表往管道里面放入了一个"令牌"

        echo ${i}>&${pid}

    done

}

main(){

    local pid=$$

    local start_time=`date +%s`

    # 生成管道文件

    token ${pid}

    local num=

    cat ../tmpa|head -|tail -|while read line

    do

        num=$((${num}+))

        if [ ${num} -eq  ]

        then

            do_switch_ip

            num=

            echo "==================================== reset num ===================================="

        fi

        # 获取令牌

        read -u${pid} name

        {

            local supplier_info=($(echo ${line}|sed 's/"//g'|sed 's/,/ /'))

            local id="${supplier_info[1]}"

            local supplier_name="${supplier_info[0]}"

            echo "${id} | ${supplier_name}"

            do_run ${id} ${supplier_name}

            # | tee -a ${result_file}_${name}

            echo ${name}>&${pid}

        } &

    done

    wait

    # 定义脚本运行的结束时间

    local stop_time=`date +%s`

    echo "TIME:`expr ${stop_time} - ${start_time}`"

    # 关闭文件描述符的读

    eval exec "${pid}<&-"

    # 关闭文件描述符的写

    eval exec "${pid}>&-"

}

main

shell爬虫的更多相关文章

Linux shell爬虫实现树洞网自动回复Robot
奇怪的赞数人生在世,不如意事十之八九,可与言者无二三人.幸好我们生在互联网时代,现实中找不到可以倾诉的人还可以在网络上寻找发情绪宣泄口,树洞这类产品就是提供一个让人在网络上匿名倾诉的平台. 我是偶然 ...
shell爬虫--抓取某在线文档所有页面
在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取. 以postgresql中文网为例.下面是实例代码 #!/bi ...
shell爬虫简易脚本（线程数可控）
1.介绍以机电之家网站为例经过初步分析,机电之家的数据量较大,并且数据组织规则较为统一,适合以代码方式进行全量爬取. 企业列表URL统一为http://www.jdzj.com/yp_vlist_ ...
shell 爬虫从日志分析到数据采集与分析
[root@VM_61_158_centos ~]# curl http://ip.chinaz.com/220.112.233.179 |grep -e Whwtdhalf.*span.*span. ...
shell及Python爬虫实例展示
1.shell爬虫实例: [root@db01 ~]# vim pa.sh #!/bin/bash www_link=http://www.cnblogs.com/clsn/default.html? ...
scrapy知识积累
Scrapy 中文文档https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html 创建项目 scrapy startproje ...
SHELL网络爬虫实例剖析--转载
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://nolinux.blog.51cto.com/4824967/1552472 前天 ...
爬虫系列3：scrapy技术进阶（xpath、rules、shell等）
本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点.内容包括: 1.xpath选择器:选择页面中想要的内容 2.rules规则:定义爬虫要爬取的域 3.scrapy she ...
Python爬虫教程-33-scrapy shell 的使用
本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找 Python爬虫教程-33-scrapy shell 的使用 scrapy shell 的使用条件:我们需要先 ...

随机推荐

python基础--基础数据类型
1.输入 python2中的输入: 关键字:input() --> 需要人为的告诉input你输入的是哪种类型的数据(声明数据类型) >>> name = input('pl ...
ifconfig配置IP地址和子网掩码
ifconfig eth0 192.168.2.10 ifconfig eth0 192.168.2.10 netmask 255.255.255.0
SpringBooot-基础<2>-POM.xml配置
SpringBooot-基础<2>-POM.xml配置项目创建完成后,需要配置pom.xml文件. pom.xml里面的配置,按需进行添加,这里提供一份参考,后面做笔记会都用到. < ...
vue+ElementUI项目中，input只能输入正整数的验证
代码如下: <el-input v-model="famount" placeholder="请输入内容" @keyup.native=&q ...
AOP Aspect 统一日志、异常处理、数据格式【转】
package com.gsww.chis.aop; import java.util.Arrays; import com.google.common.base.Throwables; import ...
当node升级后导致webpack打包出错，node-saas出问题的解决办法
报错信息如下: ERROR in ./node_modules/_extract-text-webpack-plugin@3.0.2@extract-text-webpack-plugin/dist/ ...
linux通常使用的 rc 和 .（点）文件
文件名描述 ~/.bash_login 请参考“man bash”.如果 ~/.bash_profile 不存在,bash 则将 ~/.bash_login 作为 ~/.bash_profile 处 ...
IE8下图片无法显示问题
一.背景图片不能显示的原因代码: background:url(img/img1.jpg)no-repeat; background:url(img/img1.jpg) no-repeat; 第一个 ...
SQLServer —— 变量的使用
一.局部变量的定义与赋值定义语法: -- 声明一个局部变量 DECLARE @变量名数据类型 -- 声明多个局部变量 DECLARE @变量名1 数据类型1, @变量名2 数据类型2 赋值语法: ...
JFinalConfig
概述基于JFinal的web项目需要创建一个继承自JFinalConfig类的子类,该类用于对整个web项目进行配置. JFinalConfig子类需要实现六个抽象方法,如下所示: public c ...

shell爬虫

shell爬虫的更多相关文章

随机推荐

热门专题