这两天发现了一个叫看知乎的站点。是知乎的苏莉安做的,当中爬虫使用的 Node.js。这里就针对上一篇博客中的美剧小爬虫,改用
nodejs 进行实现一下。体验一下强大的 Node.js。

假设之前没实用过 JavaScript,最好还是到 http://www.codecademy.com/  做一下 JavaScript 和 jQuery 的入门练习,高速熟悉一下基本的语法,有其它语言基础一天时间足够。

有基本的了解后。就会发现 JavaScript 的两大特点:

  • 使用基于原型(prototype)的方式来实现面向对象编程。
  • 函数式编程,对函数式有兴趣推荐 Racket(原PLT Scheme)。

Node.js 是基于Google 的V8 引擎的一个 JavaScript 执行时平台,能够非常方便的编写高速可扩展的网络应用程序。Node.js 採取事件驱动。非堵塞 I/O模型。这使其轻量级且高效。非常适合执行在分布式设备上的数据密集的实时应用。有了Node.js 这个执行时。JavaScript就不必非得在浏览器中执行了。用武之地大增,比方以下的小爬虫,爬的是《纸牌屋》的高清下载链接:

// 首先安装两个库,在当前project文件夹用以下的命令行命令:
// npm install request
// npm install cheerio var request = require("request"); // request是用来请求数据
var cheerio = require("cheerio"); // cherrio是用jquery的语法来解析html var url = "http://www.yyets.com/resource/28793";
request(url, function(error, response, body) {
if (!error && response.statusCode === 200) {
var $ = cheerio.load(body);
$('[type="ed2k"]').each(function() {
var link = $(this).attr('href');
if (typeof(link) != 'undefined' && link.indexOf("1024") > -1) {
console.log(link);
}
});
}
}); // 将文件命名为 download.js (or whatever you like)
// 打开命令行窗体运行(windows 下推荐用 powershell):
// node download.js > link.txt
// 通过重定向输出,将下载链接存储到 link.txt 这个文本文件里
// tip: 按住 【shift】 键,当前文件夹内空白处右键会有打开命令行选项
// tip: 推荐 sublime 编辑器。安装 js 格式化和 terminal 插件

【地址:http://blog.csdn.net/thisinnocence/article/details/40404219】

Node.js 爬虫批量下载美剧 from 人人影视 HR-HDTV的更多相关文章

  1. Python 爬虫批量下载美剧 from 人人影视 HR-HDTV

    本人比較喜欢看美剧.尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的全部 HR-HDTV 的 ed2k下载链接.并依照先后顺序写入到文本文件, ...

  2. Node.js aitaotu图片批量下载Node.js爬虫1.00版

    即使是https网页,解析的方式也不是一致的,需要多试试. 代码: //====================================================== // aitaot ...

  3. Node.js umei图片批量下载Node.js爬虫1.00

    这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下: //====================================================== // ...

  4. Node.js abaike图片批量下载Node.js爬虫1.01版

    //====================================================== // abaike图片批量下载Node.js爬虫1.01 // 1.01 修正了输出目 ...

  5. Node.js abaike图片批量下载Node.js爬虫1.00版

    这个与前作的差别在于地址的不规律性,需要找到下一页的地址再爬过去找. //====================================================== // abaik ...

  6. node.js爬虫

    这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程 ...

  7. Node.js爬虫-爬取慕课网课程信息

    第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...

  8. Node JS爬虫:爬取瀑布流网页高清图

    原文链接:Node JS爬虫:爬取瀑布流网页高清图 静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...

  9. Node.js 爬虫爬取电影信息

    Node.js 爬虫爬取电影信息 我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...

随机推荐

  1. 【LeetCode】ZigZag Conversion(Z 字形变换)

    这道题是LeetCode里的第6道题. 题目要求: 将一个给定字符串根据给定的行数,以从上往下.从左到右进行 Z 字形排列. 比如输入字符串为 "LEETCODEISHIRING" ...

  2. static面试总结

    static用法: 静态变量: 静态方法: 静态代码块: 静态内部类: 静态导包. 1.静态变量: private static int a = 0 2.静态方法: public static voi ...

  3. uva 11178二维几何(点与直线、点积叉积)

    Problem D Morley’s Theorem Input: Standard Input Output: Standard Output Morley’s theorem states tha ...

  4. 洛谷 [P1939] 矩阵加速数列

    矩阵快速幂模版 #include <iostream> #include <cstring> #include <cstdlib> #include <alg ...

  5. 集合 Properties 的 简单例子(Spring)

    Java代码: package com.ioc; import java.util.Properties; public class Student { private String name; pr ...

  6. 巧克力王国 BZOJ 2850

    巧克力王国 [问题描述] 巧克力王国里的巧克力都是由牛奶和可可做成的.但是并不是每一块巧克力都受王国人民的欢迎,因为大家都不喜欢过于甜的巧克力.对于每一块巧克力,我们设x和y为其牛奶和可可的含量.由于 ...

  7. golang-random随机数

    在Golang中,有两个包提供了rand,分别为 "math/rand" 和 "crypto/rand",  对应两种应用场景. 一."math/ra ...

  8. HDU 5893 List wants to travel(树链剖分+线段树)

    题目链接 HDU5893 $2016$年$ICPC$沈阳网络赛的$B$题.这道题其和 BZOJ2243 基本一样 那道题我也写了题解 点这里 两道题的区别就是$BZOJ$这题是点的权值,这道题是边权. ...

  9. codevs——1065 01字符串

    1065 01字符串  时间限制: 1 s  空间限制: 128000 KB  题目等级 : 黄金 Gold 题解       题目描述 Description 输出仅有0和1组成的长度为n的字符串, ...

  10. Java中ArrayList类

    ArratList 类:存放同一数据类型容器(只能为引用数据类型,因实际其内部存放的是地址) 1.导入其所在包 import java.util.ArratList 2.创建对象 ArrayList& ...