cheerio数据抓取

很多语言都能写个爬虫抓取数据，js自然也可以，使用cheerio可以支持css检索，较快捷的获取需要的数据。首先，先把node.js给安装了。可到官网下载。安装好node.js后，使用npm安装cheerio。

我这里使用的是win7，可以在 node.js command prompt 里输入

 npm install cheerio

要注意的是，到项目所在的目录下执行。

接着就可以开发了，使用node.js http模块并引入cheerio模块，使用get方式获取待抓取的网页内容，具体的解析可以参考https://github.com/cheeriojs/cheerio；

 var url = "http://www.baidu.com/s?rtt=2&tn=baiduwb&rn=20&cl=2&wd=%BA%A3%D4%F4%CD%F5"

 var http = require("http");

 // Utility function that downloads a URL and invokes

 // callback with the data.

 function download(url, callback) {

     http.get(url, function(res) {

         var data = "";

         res.on('data', function(chunk) {

             data += chunk;

         });

         res.on("end", function() {

             callback(data);

         });

     }).on("error", function() {

         callback(null);

     });

 }

 var cheerio = require("cheerio");

 download(url, function(data) {

     if (data) {

         var $ = cheerio.load(data);

         //id为weibo里的所有li,每个li里的段落p的内容

         $('#weibo').find('li').each(function(i, elem) {

             console.log($(this).find('p').text());

             console.log(" ");

         })

     }

     else

         console.log("error");

 });

保存为print.js，运行命令执行print.js

 node print.js

数据获取成功：

cheerio数据抓取的更多相关文章

Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
Java实现多种方式的http数据抓取
前言: 时下互联网第一波的浪潮已消逝,随着而来的基于万千数据的物联网时代,因而数据成为企业的重要战略资源之一.基于数据抓取技术,本文介绍了java相关抓取工具,并附上demo源码供感兴趣的朋友测试! ...
R语言XML包的数据抓取
htmlParse 函数 htmlParse加抓HTML页面的函数. url1<-"http://www.caixin.com/"url<-htmlParse(url1 ...
Twitter数据抓取
说明:这里分三个系列介绍Twitter数据的非API抓取方法.有兴趣的QQ群交流: BitCrawler网络爬虫QQ群 322937592 1.Twitter数据抓取(一) 2.Twitter数据抓取 ...
python3爬虫再探之豆瓣影评数据抓取
一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...
数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置
数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上 ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
联系我们_鲲鹏Web数据抓取 - 专业Web数据采集服务提供者
联系我们_鲲鹏Web数据抓取 - 专业Web数据采集服务提供者首页 > 联系我们我们的联系方式如下: 029 - 82542052(陕西西安) 13389148466 或 13571845 ...

随机推荐

JavaScript自增、自减
JavaScript自增.自减运算符与表达式语法 var i++; var-- 声明变量 i-- 变量名 ++ -- 自增运算符 JavaScript自增.自减运算符与表达式 JavaScript自增 ...
从源码看 Promise 概念与实现
Promise 是 JS 异步编程中的重要概念,它较好地解决了异步任务中回调嵌套的问题.在没有引入新的语言机制的前提下,这是如何实现的呢?上手 Promise 时常见若干晦涩的 API 与概念,它们又 ...
[转]Sql Server 分页存储过程
本文转自: 版权声明:作者:jiankunking 出处:http://blog.csdn.net/jiankunking 本文版权归作者和CSDN共有,欢迎转载,但未经作者同意必须保留此段声明,且 ...
api拆分（数据传递和接收的几种方式）
传递方式一:对象转String 接收:String类型接收再转对象传递方式二:Map 接收:Map 传递方式三:json(Map转json) 接收:String转Map 传递方式四:Map里放jso ...
DateReader读取数据
DateReader对象提供了用循序的.只读的方式读取Command对象获取的数据结果集正是因为DateReader是以循序的方法连续地读取数据,所以DateReader会以独占的方式打开数据库连接. ...
Odata简介和Demo
转:http://www.cnblogs.com/shanyou/archive/2013/06/11/3131583.html 在SOA的世界中,最重要的一个概念就是契约(contract).在云计 ...
golang类型转化
int 转 float mean:= float32(sum) float 转 int a := 5.0 b := int(a) string 转 int i,_ := strconv.At ...
java自学-流程控制语句
一件事情从开始到结束,需要先做什么,再做什么,最后再怎么做,这段过程就是一个流程.程序逻辑处理也是一个流程,java中有专门的流程控制语句,主要分为这几种:顺序,判断,选择,循环. 1.顺序流程顺 ...
阿里巴巴的数据池DRUID
使用了阿里巴巴的数据池管理: 监控DB池连接和SQL的执行情况 https://github.com/alibaba/druid/wiki/常见问题 https://www.cnblogs.com ...
Date()函数的用法

cheerio数据抓取

cheerio数据抓取的更多相关文章

随机推荐

热门专题