nodejs抓取页面内容，并分析有无某些内容的js文件

nodejs获取网页内容绑定data事件，获取到的数据会分几次相应，如果想全局内容匹配，需要等待请求结束，在end结束事件里把累积起来的全局数据进行操作！

举个例子，比如要在页面中找有没有www.baidu.com，不多说了，直接放代码：

//引入模块

var http = require("http"),

fs = require('fs'),

url = require('url');

//写入文件，把结果写入不同的文件

var writeRes = function(p, r) {

     fs.appendFile(p , r, function(err) {

        if(err)

             console.log(err);

        else

             console.log(r);

    });

},

//发请求，并验证内容，把结果写入文件

postHttp = function(arr, num) {

     console.log('第'+num+"条！")

     var a = arr[num].split(" - ");

     if(!a[0] || !a[1]) {

          return;

     }

     var address = url.parse(a[1]),

     options = {

          host : address.host,

          path: address.path,

          hostname : address.hostname,

          method: 'GET',

          headers: {

            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'

        }

     }

     var req = http.request(options, function(res) {

          if (res.statusCode == 200) {

               res.setEncoding('UTF-8');

               var data = '';

               res.on('data', function (rd) {

                    data += rd;

               });

               res.on('end', function(q) {

                    if(!~data.indexOf("www.baidu.com")) {

                         return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');

                    } else {

                         return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");

                    }

               })

          } else {

               writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');

          }

     });

     req.on('error', function(e) {

          writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');

     })

     req.end();

},

//读取文件，获取需要抓取的页面

openFile = function(path, coding) {

     fs.readFile(path, coding, function(err, data) {

          var res = data.split("\n");

          for (var i = 0, rl = res.length; i < rl; i++) {

               if(!res[i])

                    continue;

               postHttp(res, i);

          };

     })

};

openFile('./sites.log', 'utf-8');

上面的代码大家应该都能看的懂！这里只是一个实验性的一些代码，具体的还要大家自己去研究研究！

nodejs抓取页面内容，并分析有无某些内容的js文件的更多相关文章

用PHP抓取页面并分析
在做抓取前,记得把php.ini中的max_execution_time设置的大点,不然会报错的.
【java】抓取页面内容，提取链接（此方法可以http get无需账号密码的请求）
package 网络编程; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileOutpu ...
【新手向】使用nodejs抓取百度贴吧内容
参考教程:https://github.com/alsotang/node-lessons 1~5节 1. 通过superagent抓取页面内容 superagent .get('http://www ...
如何使用angularjs实现抓取页面内容
<html ng-app="myApp"> <head> <title>angularjs-ajax</title> <scr ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
php抓取页面的几种方法详解
本篇文章是对php抓取页面的几种方法进行了详细的分析介绍,需要的朋友参考下在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求 ...
基于puppeteer模拟登录抓取页面
关于热图在网站分析行业中,网站热图能够很好的反应用户在网站的操作行为,具体分析用户的喜好,对网站进行针对性的优化,一个热图的例子(来源于ptengine) 上图中能很清晰的看到用户关注点在那,我们不 ...
Java爬虫系列二：使用HttpClient抓取页面HTML
爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...
python 爬虫抓取 MOOC 中国课程的讨论区内容
一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容.可以,但是特别慢,相当慢.作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识.甚至看了 scrapy ...

随机推荐

Android官方开发文档Training系列课程中文版：性能优化建议
原文地址:http://android.xsoftlab.net/training/articles/perf-tips.html 本篇文章主要介绍那些能够提升总体性能的微小优化点.它与那些能突然改观 ...
修改QGIS来支持DPI为96的WMTS/WMS服务
缘由因为各种各种wmts地图客户端产品的标准的支持不一定是一致的,就像ArcGIS不同版本加载WMTS图层的时候计算的规则就有差别(米和经纬度之间转换系数的区别),导致会出现适应各个客户端而出的WM ...
oracle完全删除实例
问题描述: 重建oracle库实例,因此要删除数据库实例问题解决: 利用自用自带的dbca库管理,实现图形化删除实例 01.登录安装oracle数据库的linux 打开xshell企业版的Xman ...
学习下知然网友写的taskqueue
博主在他的博客里对taskqueue的各种使用情况和使用方法都介绍的很清楚:http://www.cnblogs.com/zhiranok/archive/2013/01/14/task_queue. ...
UnDistracted for Mac（集中注意力辅助工具）破解版安装
1.软件简介 UnDistracted 是 macOS 系统上一款可以帮助我们集中注意力的辅助工具,让我们在 mac 电脑上工作更加集中注意力,提高工作效率,隐藏所有文件或是文件夹窗口.隐藏所有 ...
CentOS下如何查看并杀死僵尸进程
昨天服务器到期,之前的服务器由于空间小,不能满足现在的服务要求,就新购买了一个服务器,目前正在调试安装中! 在调试过程中,发现系统中有很多僵尸进程,现在就是找出这些僵尸进程,并将其杀死. 用top查看 ...
何为编码 GBK 和 UTF8编码？GBK，GB2312与区位码有何关系？
何为GBK,何为GB2312,与区位码有何渊源? 区位码是早些年(1980)中国制定的一个编码标准,如果有玩过小霸王学习机的话,应该会记得有个叫做“区位”的输入法(没记错的话是按F4选择).就是打四个 ...
Kubernetes1.2如何使用iptables
转:http://blog.csdn.net/horsefoot/article/details/51249161 本次分析的kubernetes版本号:v1.2.1-beta.0. Kubernet ...
ESXi创建磁盘命令
[root@esx421 SAN]# vmkfstools -d thick -a lsilogic -c 10G lun00.vmdk Incorrect disk option "thi ...
【转】python实战——教你用微信每天给女朋友说晚安
但凡一件事,稍微有些重复.我就考虑怎么样用程序来实现它. 这里给各位程序员朋友分享如何每天给朋友定时微信发送”晚安“,故事,新闻,等等··· ··· 最好运行在服务器上,这样后台挂起来更方便. #!/ ...

nodejs抓取页面内容，并分析有无某些内容的js文件

nodejs抓取页面内容，并分析有无某些内容的js文件的更多相关文章

随机推荐

热门专题