node爬取页面元素

/**
 * Created by on 2018/12/25.
 */
const http = require("https");
const fs = require('fs');

//读取html插件
const cheerio = require("cheerio");

//读取的文件路径
const filePath = './山炮表格.xlsx';

//表格插件
const xlsx = require('node-xlsx');

const sheets = xlsx.parse('./山炮表格.xlsx');//获取到所有sheets

let allUserId = [];
sheets.forEach(function (sheet) {
    // console.log(sheet['name']);
    for (var rowId in sheet['data']) {
        // console.log(rowId);
        var row = sheet['data'][rowId];
        // console.log(row);
        allUserId.push(row);
    }
});
// console.log(allUserId);

//微博搜索用户页
const findUserUrl = 'https://s.weibo.com/user';
let hasVUser = []
let index = 1;
function getV(allIds, index) {
    let theCurrentId = allIds[index][1];
    let theUrl = 'https://s.weibo.com/user?q=' + theCurrentId + '&Refer=SUer_box';
    console.log(theUrl)
    http.get(''+theUrl, res => {
        let html = "";
        // 获取页面数据
        res.on("data", function (data) {
            html += data;
        });
        // 数据获取结束
        res.on("end", function () {
            let $ = cheerio.load(html);
            // console.log($('.icon-vip').length);
            if($('.icon-vip').length>0){
                hasVUser.push(theCurrentId);
            }
            if(index<allIds.length-1){
                index++
                getV(allIds,index);
            }else{
                console.log(hasVUser,'所有带v')
            }
        });
    });
}

getV(allUserId,index);

});

{

  "dependencies": {},

  "devDependencies": {

    "cheerio": "^1.0.0-rc.2",

    "fs": "0.0.1-security",

    "node-xlsx": "^0.12.1"

  }

}

node爬取页面元素的更多相关文章

Selenium2学习-028-WebUI自动化实战实例-026-获取页面元素值或者元素属性值
在自动化脚本编写过程中,经常需要获取页面元素的文本进行判断,以便对于不同的文本进行不同的处理.比如:很多的购物网站,加入购物车的按钮是有多个状态的(加入购物车.到货通知.暂不销售等),那么在实际的操作 ...
Selenium2学习-026-WebUI自动化实战实例-024-获取页面元素
非常简单的方法封装,就不啰嗦了,直接上码咯 ^_^ /** * Get element. It will be return null when there is not such element. ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...
Node爬取简书首页文章
Node爬取简书首页文章博主刚学node,打算写个爬虫练练手,这次的爬虫目标是简书的首页文章流程分析使用superagent发送http请求到服务端,获取HTML文本用cheerio解析获得的 ...
【java】使用URL和CookieManager爬取页面的验证码和cookie并保存
使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
总结：从Node爬取数据到前端图表展示
最近寒假在家学习Node.js开发,光看书或者跟着敲代码还不够,得找一点有趣的事情来玩一玩,于是我决定写一个Node爬虫,爬取一些有意思或者说是有用的数据.这个决定只与我的兴趣有关,与Python或者 ...
node爬取html乱码
var http = require('http'), iconv = require('iconv-lite'); http.get("http://website.com/", ...

随机推荐

王子和公主 UVa10635
[题目描述]:王子和公主一个王子和公主在n*n的格子中行走,这些格子是有1....n^2的编号的.现在给定p+1个数,再给定q+1个数,公主和王子可以选择其中某些格子行走,求他们最多能走几个相同的格 ...
Linux Mint 17使用配置
=> 调亮度: 方法一: 每次开机或注销登录之后需要重新设置 > /sys/class/backlight/intel_backlight/brightness #根据自己需要调值,如20 ...
手把手教你看KEGG通路图！
手把手教你看KEGG通路图! 亲爱的小伙伴们,是不是正关注代谢通路研究?或者你正面对数据,绞尽脑汁?小编当然不能让亲们这么辛苦,今天就跟大家分享KEGG代谢通路图的正确解读方法,还在迷糊中的小伙伴赶紧 ...
用kettle实现数据库迁移之oracle到mysql
项目完成后,需要把历史oracle 的数据库转移mysql 用kettle 转换数据. 步骤: 1.打开spoon.bat,文件-->新建-->转换,点击“主对象树”,DB连接右键“新建” ...
通过cat方式生成yum源
cat >> /etc/yum.repos.d/centos7.repo << EOF[test-iso7]name=CentOS- - Mediabaseurl=http:/ ...
完全卸载memcached的方法(CentOS)
前阵子给服务器装了个memcached,4G的内存,想给网站提提速,实际上不但没有明显效果,反倒耗费内存,看着碍眼,于是想卸载,网上各种搜索+自己实践,搞出一个傻瓜方案来: 1.首先查找你的memca ...
Utimate Visual 2013 突然间无法新建项目工程解决
问题: 我用的Win7 安装的VS2013,这一段时间用的好好的,突然间新建工程师向导页面跳转不过去... 解决: 参考:http://stackoverflow.com/questions/1225 ...
利用Senparc.Weixin SDK 实现微信用户的授权，并获取信息
前一段时间在学校做过一个项目,就是利用的Senparc.Weixin SDK 做的,于是翻看以前代码,虽然有注释,但是还是看的迷迷糊糊的,干脆就单步执行一遍看看是怎么实现的,然后就重新写了个简易的授权 ...
Ocelot Consul
1首先创建一个json的配置文件,文件名随便取,我取Ocelot.json 这个配置文件有两种配置方式,第一种,手动填写服务所在的ip和端口:第二种,用Consul进行服务发现第一种如下: { & ...
python，使用百度api实现复制截图中的文字
百度云文字识别技术文档: 跳转第三方模块安装: pip install baidu-aip pip install Pillow pip install keyboard pip install p ...

node爬取页面元素

node爬取页面元素的更多相关文章

随机推荐

热门专题