NodeJs简单七行爬虫--爬取自己Qzone的说说并存入数据库

没有那么难的，嘿嘿，说起来呢其实挺简单的，或者不能叫爬虫，只需要将自己的数据加载到程序里再进行解析就可以了，如果说你的Qzone是向所有人开放的，那么就有一个JSONP的接口，这么说来就简单了，也就不用我们再利用phantomjs，缓慢的爬了。其实程序还没有做的太过完美，只是简单地可以打印出来说说的内容，明天再做一下，把说说存到数据库里，嘿嘿。
做这个呢，需要用到一个开源库，nodegrass，这个库呢也并不是必须的，它是对nodejs里的http.request的封装。
其实基本原型就在这里了，所需要的已经在代码里了。当然了里边的那个链接是我自己的JSONP的接口，如果你懂的话，你会知道怎么改成你的JSONP接口，但是需要说的是必须空间对所有人开放。

 var nodegrass = require('nodegrass');

 var sqlite3 = require('sqlite3').verbose();

 var db = new sqlite3.Database('blog.db');

 var tmp = 0;

 function nodepa(tmp) {

     if (tmp == 10) tmp--;

     nodegrass.get("http://taotao.qq.com/cgi-bin/emotion_cgi_homepage_msg?owneruin=1187772742&start=" + tmp + "&num=10&format=jsonp", function(data, status, headers) {

         var json = JSON.parse(data.slice(10, -2));

         for (var s in json['result']['posts']) {

             db.run("insert into qzone values('" + (Number(s) + tmp).toString() + "','" + json['result']['posts'][s]['content'].toString() + "','" + json['result']['posts'][s]['create_time'].toString() + "','" + json['result']['posts'][s]['createTime2'].toString() + "')", function() {

                 if (this.changes == undefined || this.changes == null)console.log("err");

             })

             console.log(json['result']['posts'][s]['content']);

             console.log(json['result']['posts'][s]['createTime2']);

             console.log(Number(s) + tmp);

         }

         if (tmp < 2640) nodepa(tmp + 10);

         else return;

     }, 'utf-8').on('error', function(e) {

         console.log("Got error: " + e.message);

     });

 }

 nodepa(tmp);

NodeJs简单七行爬虫--爬取自己Qzone的说说并存入数据库的更多相关文章

python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
node.js 89行爬虫爬取智联招聘信息
写在前面的话, .......写个P,直接上效果图.附上源码地址 github/lonhon ok,正文开始,先列出用到的和require的东西: node.js,这个是必须的 request,然发 ...
python3爬取百度知道的问答并存入数据库(MySQL)
一.链接分析: 以"Linux"为搜索的关键字为例: 首页的链接为:https://zhidao.baidu.com/search?lm=0&rn=10&pn=0& ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
node：爬虫爬取网页图片
代码地址如下:http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图片 ...

随机推荐

Swift—默认构造函数-备
结构体和类的实例在构造过程中会调用一种特殊的init方法,称为构造函数.构造函数没有返回值,可以重载.在多个构造函数重载的情况下,运行环境可以根据它的外部参数名或参数列表调用合适的构造函数.默认构造函 ...
VS2010安装项目的系统必备中添加.NET 2.0
把DotNetFX.rar解压后的DotNetFX文件夹,放置于安装了 VS2010 的 C:\Program Files\Microsoft SDKs\Windows\v7.0A\Bootstrap ...
转：1.1 cdev_init cdev_alloc 使用说明
对 “从globalmem学习linux字符设备驱动” 的 cdev_init 和 cdev_alloc中一些不清楚的地方进行说明: cdev_init 和 cdev_alloc函数定义如下: ...
java中Runnable接口含义
Java中实现多线程有两种途径:继承Thread类或者实现Runnable接口. Runnable接口非常简单,就定义了一个方法run(),继承Runnable并实现这个方法就可以实现多线程了,但是 ...
安卓u8800刷机
一篇非常好的帖子:http://bbs.anzhi.com/thread-5113728-1-1.html 虽然不是什么大神,不过在两个QQ群里和这里解答过N多刷机和ROOT中遇到的问题了...而且伸 ...
java中一直说一个汉字使用两个字节，原来是不准确的
utf-8码的中文都是3字节的,而 gbk/gbk18030 是2字节的
【疑难杂症】xmind启动后，自动退出的问题
xmind安装一段时间后,就会出现一启动,就自动退出的情况.卸载重装也无法解决,在试过网上的各种方法后,发现这个方法最凑效. 打开xmind.ini(安装目录下),删除以下几行,保存配置文件,重启即可 ...
hdu-1800
思路: 这题被坑的不轻. 首先花了一段时间想明白了思路是要找出现次数最多数字,以为这题就这样解决了,结果发现每个数字的最大长度是30,long long都装不下,因此就要用字符串来保存处理.然后在in ...
如何解决ajax跨域问题
如何解决ajax跨域问题(转) 由于此前很少写前端的代码(哈哈,不合格的程序员啊),最近项目中用到json作为系统间交互的手段,自然就伴随着众多ajax请求,随之而来的就是要解决 ajax的跨域问题 ...
[每日一题] OCP1z0-047 :2013-08-05 SELECT语句――列的表达式
按题意操作如下: hr@MYDB> SELECT first_name,salary,salary*12+salary*12*0.5 "ANNUAL SALARY + BONUS&qu ...

NodeJs简单七行爬虫--爬取自己Qzone的说说并存入数据库

NodeJs简单七行爬虫--爬取自己Qzone的说说并存入数据库的更多相关文章

随机推荐

热门专题