1.cron 定时任务 CronJob var CronJob = require('cron').CronJob; // 秒 分钟 时 天…
run.js ; function set(){ i++ setTimeout(function(){ console.log(i) ){ set(); } },) }set(); child_process demo var child_process = require('child_process'); var fs = require('fs'); // spawn 是个流对象,可以通过监听它的data事件来获取里面的控制台输出 // exec 命令执行完毕后调用回调函数 stdout…
全局对象: console  : __filename     ; __dirname     ; setTimeOut     ; setImmediate(把参数函数放在下一个环节执行) process对象 cwd   //当前工作目录   console.log(process.cwd()); chdir   //修改当前工作目录   process.chdir('..') ;  切换到上一层目录 memoryUsage   //内存使用量    process.memoryUsage()…
var async = require('async'); // series 串形任务 console.time('cost') async.series({ two:function(callback){ setTimeout(function(){ console.log('串形任务two'); //第一个参数 错误原因,当为真时,接收函数err参数接收到原因,并定为报错,停止执行后边的任务 callback(null,'串形任务two 执行完毕'); },) }, one:functio…
实现一个简易爬虫&启动定时任务 课程介绍看这里:https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址:https://github.com/hellozhangran/happy-egg-server 爬虫 目前 node.js 爬虫工具比较火的有 node-crawler puppeteer.不过我目前没打算用这些,因为至少现在我们的项目还用不到.只要能发送请求.解析dom我们就能自己实现一个爬虫.所以我选择了axios + c…
前言 今天没有什么前言,就是想分享些关于爬虫的技术,任性.来吧,各位客官,里边请... 开篇第一问:爬虫是什么嘞? 首先咱们说哈,爬虫不是"虫子",姑凉们不要害怕. 爬虫 - 一种通过一定方式按照一定规则抓取数据的操作或方法. 开篇第二问:爬虫能做什么嘞? 来来来,谈谈需求 产品MM: 爱豆的新电影上架了,整体电影评价如何呢? 暗恋的妹子最近又失恋了,如何在她发微博的时候第一时间知道发了什么,好去呵护呢? 总是在看小说的时候点到广告?总是在看那啥的时候点出来,澳xx场又上线啦? 做个新…
上周写了一个node+experss的爬虫小入门.今天继续来学习一下,写一个爬虫2.0版本. 这次我们不再爬博客园了,咋玩点新的,爬爬电影天堂.因为每个周末都会在电影天堂下载一部电影来看看. talk is cheap,show me the code! [原]小玩node+express爬虫-1:http://www.cnblogs.com/xianyulaodi/p/6049237.html 抓取页面分析 我们的目标: 1.抓取电影天堂首页,获取左侧最新电影的169条链接 2.抓取169部新…
cron是什么 cron的意思就是:计划任务,说白了就是定时任务.我和系统约个时间,你在几点几分几秒或者每隔几分钟跑一个任务(job),就那么简单. cron表达式 cron表达式是一个好东西,这个东西不仅Java的quartZ能用到,Go语言中也可以用到.我没有用过Linux的cron,但网上说Linux也是可以用crontab -e 命令来配置定时任务.Go语言和Java中都是可以精确到秒的,但是Linux中不行. cron表达式代表一个时间的集合,使用6个空格分隔的字段表示: 字段名 是否…
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(…
这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程控制(thenjs) 1.为什么选择http模块来发送Http请求下载页面 社区有很多封装好的Http请求模块,例如:request.needle.node-rest-client等,http有这些模块比拟不了的优势,可以监听抓取的字节流,我们知道要抓取的页面一般会含有汉字,一个汉字是3个字节(也有…