简单实现nodejs爬虫工具

约30行代码实现一个简单nodejs爬虫工具，定时抓取网页数据。

使用npm模块

request---简单http请求客户端。（轻量级）

fs---nodejs文件模块。

index.js

var request = require('request');

var fs = require("fs");

var JJurl = "https://recommender-api-ms.juejin.im/v1/get_recommended_entry?suid=6bYFY7IRbfmijiJeeeIQ&ab=welcome_3&src=web"

var title = ""

var options = {

    uri: JJurl,

    headers: {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36',

    },

    json: true

};

setInterval(function() {

    request(options, function(error, response, body) {

        if (!error) {

            for (var i in body.d) {

                title += body.d[i].title + "\n"

            }

            fs.writeFile('./result.txt', title, function(err) {

                if (err) {

                    throw err;

                }

            });

        } else {

            console.log('抓取失败')

        }

    });

}, 5000);

补充：服务端反爬虫技术

1.判断headers 中的参数。

2.检查cookies存在。

3.通过ip地址或者用户帐号。

PS：不知是不是为了反爬虫才让用户强制登录。

通过flash的形式与服务端交互应该比较少见。

ajax请求后对数据进行混淆，前端是不可能加密的。

客户端爬虫技术

1.可以伪造请求头的参数。设置用户代理等参数，具体可以查看浏览器请求。

2.可以保存服务端回传cookie，可以保存cookie，以便请求携带cookie。

3.可以使用代理服务器去请求。但用户帐号不好伪造。

简单实现nodejs爬虫工具的更多相关文章

【nodeJS爬虫】前端爬虫系列
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...
node.js 基于cheerio的爬虫工具，需要登录权限的爬虫工具
公司有过一个需求,需要拿一个网页的的表格数据,数据量达到30w左右:为了提高工作效率. 结合自身经验和网上资料.写了一套符合自己需求的nodejs爬虫工具.也许也会适合你的. 先上代码.在做讲解 'u ...
简单高效的nodejs爬虫模型
这篇文章讲解一下yunshare项目的爬虫模型. 使用nodejs开发爬虫很简单,不需要类似python的scrapy这样的爬虫框架,只需要用request或者superagent这样的http库就能 ...
Nodejs书写爬虫工具
看了几天的nodejs,的确是好用,全当是练手了,就写了一个爬虫工具. 爬虫思路都是一致的,先抓取页面数据,然后分析页面,获取到所需要的数据,最后获得这些数据,是写入到硬盘,还是显示到网页,自己看着办 ...
Jsoup-解析HTML工具（简单爬虫工具）
Jsoup-解析HTML工具(简单爬虫工具) 一.简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS ...
nodejs爬虫--抓取CSDN某用户全部文章
最近正在学习node.js,就像搞一些东西来玩玩,于是这个简单的爬虫就诞生了. 准备工作 node.js爬虫肯定要先安装node.js环境创建一个文件夹在该文件夹打开命令行,执行npm init初 ...
NodeJS 爬虫爬取LOL英雄联盟的英雄信息，批量下载英雄壁纸
工欲善其事,必先利其器,会用各种模块非常重要. 1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,OC的afnetworking) ...
Nodejs爬虫进阶教程之异步并发控制
Nodejs爬虫进阶教程之异步并发控制之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回 ...
NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...

随机推荐

Spring Boot概要
1.Spring Boot使用“习惯优于配置”(项目中存在大量的配置,此外还内置了一个习惯性的配置)的理念,使用户的项目实现快速运行.通过学习Spring Boot中的配置文件application. ...
HDU 2602 Bone Collector骨头收藏者（01背包）
题意:收藏骨头. 思路: 常规的01背包. #include <iostream> #define N 1005 using namespace std; int volume[N]; / ...
mif文件生成方法
mif文件就是存储器初始化文件,即memory initialization file,用来配置RAM或ROM中的数据.常见生成方法: Quartus自带的mif编辑器生成 mif软件生成高级编程语 ...
使用后台程序的第一个表单Form
参考手册:http://www.yiichina.com/doc/guide/2.0/start-forms 1.创建模型:advanced\backend\models\moxing.php 此模型 ...
IOS tabelView退出键盘
/** *当开始拖拽表格的时候就会调用 * */ -(void)scrollViewWillBeginDragging:(UIScrollView *)scrollView { //退出键盘 [sel ...
EF写统计
EF的特性是,你from的第一个表为主表,接下来的所有表以左联或者内联或者交叉连接的方式去显示,不会出现右联, 在编写的时候,可以先确定个数据源,然后对这个数据源进行数据的统计, 例如SQL: -- ...
Aizu 0121 Seven Puzzle（变进制数的完美hash）
一遍预处理跑完所有情况,O(1)回答就好.状态记录我用的康拓和逆康拓. #include<bits/stdc++.h> using namespace std; ]; ]; ]; int ...
漫谈 Clustering (5): Hierarchical Clustering
系列不小心又拖了好久,其实正儿八经的 blog 也好久没有写了,因为比较忙嘛,不过觉得 Hierarchical Clustering 这个话题我能说的东西应该不多,所以还是先写了吧(我准备这次一个公 ...
外网访问FTP服务，解决只能以POST模式访问Filezilla的问题
在内网可以正常使用PASV,但是在外网不行,导致数据传输慢或者根本连接不了,在FlashFXP中通过日志,找到了解决方法解决方法1.在Filezilla——Edit——Settings——Passiv ...
【6.20校内test】
反正考的不是很好吧,赶脚炸了啊qwq 然后这两天一直在忙一些神奇的事情,所以没有整理完手动@water_lift T1:大美江湖: [题目背景] 细雪飘落长街,枫叶红透又一年不只为故友流连,其实我 ...

简单实现nodejs爬虫工具

简单实现nodejs爬虫工具的更多相关文章

随机推荐

热门专题