nodejs爬虫如何设置动态ip以及userAgent

转https://blog.csdn.net/u014374031/article/details/78833765

前言

在写nodejs爬虫的过程中，原网站可能会对某一时间段内集中访问该页面的ip进行封杀。那么如何动态设置每次爬取使用的ip地址以及浏览器头部信息呢？

动态userAgent

这是我收集到的常用的浏览器头部信息，每次爬取的时候从中随机选取一个，并使用superAgent设置请求头部的User-Agent字段就好了。

`userAgent.js`

const userAgents = [

  'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

  'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',

  'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20',

  'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6',

  'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',

  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0) ,Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',

  'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',

  'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)',

  'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre',

  'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52',

  'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)',

  'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6',

  'Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6',

  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)',

  'Opera/9.25 (Windows NT 5.1; U; en), Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',

  'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'

]

module.exports = userAgents

`app.js`

import request from 'superagent'

import userAgents from '../src/userAgent'

async function doRequest(){

    let userAgent = userAgents[parseInt(Math.random() * userAgents.length)]

    request.get('http://www.xxx.com')

    .set({ 'User-Agent': userAgent })

    .timeout({ response: 5000, deadline: 60000 })

    .end(async(err, res) => {

      // 处理数据

    })

}

动态ip

设置动态IP需要用到一个superagent插件—superagent-proxy，除此之外为了避免每次爬取时都去获取一次动态IP的列表，我将爬取到的动态IP列表存放在redis中，并设置10分钟的过期时间。数据过期之后再重新发送获取动态IP的请求。
ps: 这里我使用的动态IP是爬虫网络科技公司提供的免费代理，因为免费所以难免会有些缺陷。有时候使用他的代理ip并不能访问得通，我在后面会做单独的处理。

`package.json`

{

  "name": "xxx",

  "version": "1.0.0",

  "description": "xxx",

  "main": "arf.js",

  "scripts": {

    "arf": "nodemon src/app.js --exec babel-node --config package.json"

  },

  "keywords": [

    "爬虫"

  ],

  "author": "lidikang",

  "license": "MIT",

  "dependencies": {

    "bluebird": "^3.5.1",

    "cheerio": "^1.0.0-rc.2",

    "eventproxy": "^1.0.0",

    "mongoose": "^4.13.6",

    "mongoose-findorcreate": "^2.0.0",

    "progress": "^2.0.0",

    "redis": "^2.8.0",

    "superagent": "^3.8.1",

    "superagent-proxy": "^1.0.2"

  },

  "devDependencies": {

    "babel-cli": "^6.26.0",

    "babel-preset-es2015": "^6.24.1",

    "babel-preset-stage-2": "^6.24.1",

    "nodemon": "^1.12.4"

  },

  "nodemonConfig": {

    "ignore": [

      "ips.json",

      "docs/*"

    ],

    "delay": "2500"

  }

}

`app.js`

import request from 'superagent'

import requestProxy from 'superagent-proxy'

import redis from 'redis'

// superagent添加使用代理ip的插件

requestProxy(request)

// redis promise化

bluebird.promisifyAll(redis.RedisClient.prototype)

bluebird.promisifyAll(redis.Multi.prototype)

// 建立mongoose和redis连接

const redisClient = connectRedis()

/**

 * 初始化redis

 */

function connectRedis() {

  let client = redis.createClient(config.REDIS_URL)

  client.on("ready", function(err) {

    console.log('redis连接 √')

  })

  client.on("error", function(err) {

    console.log(`redis错误，${err}  ×`);

  })

  return client

}

/**

 * 请求免费代理，读取redis，如果代理信息已经过期，重新请求免费代理请求

 */

async function getProxyIp() {

  // 先从redis读取缓存ip

  let localIpStr = await redisClient.getAsync('proxy_ips')

  let ips = null

  // 如果本地存在，则随机返回其中一个ip，否则重新请求

  if (localIpStr) {

    let localIps = localIpStr.split(',')

    return localIps[parseInt(Math.random() * localIps.length)]

  } else {

    let ipsJson = (await request.get('http://api.pcdaili.com/?orderid=888888888&num=100&protocol=1&method=1&an_ha=1&sp1=1&sp2=1&format=json&sep=1')).body

    let isRequestSuccess = false

    if (ipsJson && ipsJson.data.proxy_list) {

      ips = ipsJson.data.proxy_list

      isRequestSuccess = true

    } else {

      ips = ['http://127.0.0.1']

    }

    // 将爬取结果存入本地，缓存时间10分钟

    if (isRequestSuccess) {

      redisClient.set("proxy_ips", ips.join(','), 'EX', 10 * 60)

    }

    return ips[parseInt(Math.random() * ips.length)]

  }

}

async function doRequest(){

  let userAgent = userAgents[parseInt(Math.random() * userAgents.length)]

  let ip = await getProxyIp()

  let useIp = 'http://' + ip

  request.get('http://www.xxx.com')

    .set({ 'User-Agent': userAgent })

    .timeout({ response: 5000, deadline: 60000 })

    .proxy(ip)

    .end(async(err, res) => {

      // 处理数据

    })

}

之前说爬虫网络科技的免费ip有些缺陷—代理成功率有些低。这点必须想办法去修复，原理其实很简单，既然一次不成功那我就换个IP再试，直到成功了我才去开始执行解析html的逻辑

async function doRequest(){

  let userAgent = userAgents[parseInt(Math.random() * userAgents.length)]

  let ip = await getProxyIp()

  let useIp = 'http://' + ip

  request.get('http://www.xxx.com')

    .set({ 'User-Agent': userAgent })

    .timeout({ response: 5000, deadline: 60000 })

    .proxy(ip)

    .end(async(err, res) => {

      if (err) {

        console.log(`爬取页面失败，${err}，正在重新寻找代理ip... ×`)

        // 如果是代理ip无法访问，另外选择一个代理

        doRequest('http://' + await getProxyIp(), userAgents[parseInt(Math.random() * userAgents.length)])

        return

      }

      // 解析html

      console.log('爬取页面  √')

      await parseDivision(res.text)

    })

}

如果你有啥疑问，欢迎写信到我的邮箱(andyliwr@outlook.com)与我讨论。

原文请查看http://andyliwr.github.io/2017/12/05/nodejs_spider_ip/

nodejs爬虫如何设置动态ip以及userAgent的更多相关文章

爬虫平台设置代理ip
首先从国外一个网站爬取了免费的代理ip信息存到mongodb中:接着代码设置: 在爬虫客户端抽象类中添加属性: 设置代理的代码其实就以下几句: firefoxProfile.setPreference ...
Linux 静态IP动态IP设置
1.设置动态IP ifconfig eth0 192.168.1.12 设置后立即生效,重启机器后就无效了 2.设置静态IP 编辑文件 /etc/sysconfig/network-scripts/i ...
路由器中pppoe，动态IP，静态IP的区别
路由器中pppoe,动态IP,静态IP的区别要把路由器设置得能上网,无非就是设置WAN外网接口连接而已.WAN接口能上网,则连接的电脑就能上网,反之则上不了网.只不过WAN接口往往有pppoe,动态 ...
Ubuntu 18.04 Server 设置静态IP
一.背景 Netplan是Ubuntu 17.10中引入的一种新的命令行网络配置实用程序,用于在Ubuntu系统中轻松管理和配置网络设置.它允许您使用YAML抽象来配置网络接口.它可与NetworkM ...
如何修改静态IP地址和动态IP地址
打开控制面板,一般在电脑的菜单栏能找到,win8和win10可以使用快捷键(win键+X键),找不到的朋友可以搜索一下. 进入到网络和共享中心,点击更改适配器设置. 这里显示的是电脑所以的网络 ...
win10配置的静态/动态IP和 DNS的方法
1.配置静态IP和DNS netsh interface ip set address name="以太网" source=static addr=192.168.9.145 ma ...
Windows如何设置动态和静态ip地址
打开控制面板,一般在电脑的菜单栏能找到,win8和win10可以使用快捷键(win键+X键),找不到的朋友可以搜索一下. 进入到网络和共享中心,点击更改适配器设置. 这里显示的是电脑所以的网络 ...
Xshell 连接虚拟机OS Linux 设置静态ip ,网络配置中无VmWare8 的解决办法
前序:最近开始研究Hadoop平台的搭建,故在本机上安装了VMware workstation pro,并创建了Linux虚拟机(centos系统),为了方便本机和虚拟机间的切换,准备使用Xshell ...
nodejs爬虫设置动态userAgent
动态 userAgent 这是我收集到的常用的浏览器头部信息,每次爬取的时候从中随机选取一个,并使用 superAgent 设置请求头部的 User-Agent 字段就好了. userAgent.js ...

随机推荐

liunx 安装nc/netcat centos安装netcat
如果本文对你有用,请爱心点个赞,提高排名,帮助更多的人.谢谢大家!❤ 如果解决不了,可以在文末进群交流. 1:下载源码包,wget https://sourceforge.net/projects/n ...
构建nodejs环境
总想留下点东西,不负年华! 00.download releasehttps://nodejs.org/dist/ //all release example https://nodejs. ...
前端cdn库推荐
后端编程人员,有时作功能调试时会用到jquery.layer等的前端库文件,用得较多的我们可以下载下来放到自己的电脑上,有些偶尔使用一次的类库插件就没必要全都下载下来,毕竟不用的类库多了,自己找到它都 ...
python函数调用时参数传递方式
python函数调用时参数传递方式 C/C++参数传递方式对于C程序员来说,我们都知道C在函数调用时,采用的是值传递,即形参和实参分配不同的内存地址,在调用时将实参的值传给实参,在这种情况下,在函数 ...
Python_类的继承与方法重写
1.新建子类时,括号内要传入继承的父类名 2.super()方法:自动寻找当前类的父类,并调用父类的构造函数,初始化属性值 class Cup: #构造函数,初始化属性值 def __init__(s ...
Linux操作系统启动故障排错之/boot目录被删除恢复案例
Linux操作系统启动故障排错之"/boot"目录被删除恢复案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.模拟删除/boot分区 1>.查看/b ...
unicode转换为中文
unicode转换为中文 \u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u ...
数据库迁移Flyway
为什么需要Flyway 日常开发常常会遇到一些这样的场景小红开发一个模块在本地数据库增加了两个字段,并且改动了dao层的代码提交到git.这时候小黄拉取了代码Run很可能报错. 如果在上线正式环境的 ...
Centos7-网卡配置
目标计划:熟悉Linux网卡 1.修改网卡名称,替换自动生成的网卡名 2.新建网卡配置文件与新增网卡的关系 3.网卡bond模式配置,team模式 4.NetworkManager-nmcli管理网络 ...
Zabbix4.0国内下载源
国内zabbix源总结目前发现的有以下几个站点: 1.阿里巴巴开源镜像站(推荐使用) 地址:https://mirrors.aliyun.com/zabbix/ 2.华为开源镜像站(推荐使用) 地址 ...

nodejs爬虫如何设置动态ip以及userAgent

nodejs爬虫如何设置动态ip以及userAgent

前言

动态userAgent

userAgent.js

app.js

动态ip

package.json

app.js

nodejs爬虫如何设置动态ip以及userAgent的更多相关文章

随机推荐

热门专题

`userAgent.js`

`app.js`

`package.json`

`app.js`