node爬取页面元素

/**
 * Created by on 2018/12/25.
 */
const http = require("https");
const fs = require('fs');

//读取html插件
const cheerio = require("cheerio");

//读取的文件路径
const filePath = './山炮表格.xlsx';

//表格插件
const xlsx = require('node-xlsx');

const sheets = xlsx.parse('./山炮表格.xlsx');//获取到所有sheets

let allUserId = [];
sheets.forEach(function (sheet) {
    // console.log(sheet['name']);
    for (var rowId in sheet['data']) {
        // console.log(rowId);
        var row = sheet['data'][rowId];
        // console.log(row);
        allUserId.push(row);
    }
});
// console.log(allUserId);

//微博搜索用户页
const findUserUrl = 'https://s.weibo.com/user';
let hasVUser = []
let index = 1;
function getV(allIds, index) {
    let theCurrentId = allIds[index][1];
    let theUrl = 'https://s.weibo.com/user?q=' + theCurrentId + '&Refer=SUer_box';
    console.log(theUrl)
    http.get(''+theUrl, res => {
        let html = "";
        // 获取页面数据
        res.on("data", function (data) {
            html += data;
        });
        // 数据获取结束
        res.on("end", function () {
            let $ = cheerio.load(html);
            // console.log($('.icon-vip').length);
            if($('.icon-vip').length>0){
                hasVUser.push(theCurrentId);
            }
            if(index<allIds.length-1){
                index++
                getV(allIds,index);
            }else{
                console.log(hasVUser,'所有带v')
            }
        });
    });
}

getV(allUserId,index);

});

{

  "dependencies": {},

  "devDependencies": {

    "cheerio": "^1.0.0-rc.2",

    "fs": "0.0.1-security",

    "node-xlsx": "^0.12.1"

  }

}

node爬取页面元素的更多相关文章

Selenium2学习-028-WebUI自动化实战实例-026-获取页面元素值或者元素属性值
在自动化脚本编写过程中,经常需要获取页面元素的文本进行判断,以便对于不同的文本进行不同的处理.比如:很多的购物网站,加入购物车的按钮是有多个状态的(加入购物车.到货通知.暂不销售等),那么在实际的操作 ...
Selenium2学习-026-WebUI自动化实战实例-024-获取页面元素
非常简单的方法封装,就不啰嗦了,直接上码咯 ^_^ /** * Get element. It will be return null when there is not such element. ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
【java】使用URL和CookieManager爬取页面的验证码和cookie并保存
使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
总结：从Node爬取数据到前端图表展示
最近寒假在家学习Node.js开发,光看书或者跟着敲代码还不够,得找一点有趣的事情来玩一玩,于是我决定写一个Node爬虫,爬取一些有意思或者说是有用的数据.这个决定只与我的兴趣有关,与Python或者 ...
node爬取html乱码
var http = require('http'), iconv = require('iconv-lite'); http.get("http://website.com/", ...

随机推荐

It's not too late to start!
It's not too late to start! 以此鼓励,希望能坚持下去,一个半路自学PHP的准PHPer!
nltk 之 snowball 提取词干-乾颐堂
机器学习中很重要的应用场景就是机器自动分类,而分类的关键是词干提取.所以我们要用到snowball.下面说一下snowball 提取词干的两种方法. 两种方法: 方法一: >>> f ...
springboot之JdbcTemplate单数据源使用
本文介绍在Spring Boot基础下配置数据源和通过JdbcTemplate编写数据访问的示例. 数据源配置在我们访问数据库的时候,需要先配置一个数据源,下面分别介绍一下几种不同的数据库配置方式. ...
Smarty配置与实例化
在smarty文件夹下建立一个test文件夹,test下建立如下: 编辑test.php如下: <?php require('../smarty/Smarty.class.php'); $sma ...
jQuary总结8:动画操作-自定义动画
1 自定义动画语法: jQuery对象.animate(json,[speed],[easing],[callback]) 参数详解: -1 json:要执行动画的CSS属性,带数字(必选) -2 ...
python切片、列表解析、元组
1.列表解析 test = [x**2 for x in range(1,11)] 2.切片 test1 = ["a","b","c",&q ...
Word文档发布到CSDN博客
目前大部分的博客作者在写博客这件事情上都会遇到以下3个痛点:1.所有博客平台关闭了文档发布接口,用户无法使用Word,Windows Live Writer等工具来发布博客.2.发布到博客或公众号平台 ...
ArcGIS API for Javascript 图层切换渐变效果实现
在一个WebGIS系统中往往要实现图形的切换,比如业务图层的切换,以及底图的切换等等,可以通过控制图层的可见性来实现.比如通过设置图层的opacity .visible来控制,前几天有网友聊天的时候提 ...
GetFileVersionInfoSize函数确定操作系统是否可以检索指定文件的版本信息
GetFileVersionInfoSize函数 -------------------------------------------------- ------------------------ ...
[Postgres]Postgres单用户模式执行VACUUM
# su - postgres $ /usr/local/pgsql/bin/postgres --single -D /usr/local/pgsql/data [不能VACUUM的数据库] Pos ...

node爬取页面元素

node爬取页面元素的更多相关文章

随机推荐

热门专题