爬起点小说 day01

先介绍下我自己爬起点小说的思路：

1.爬取所有的类型列表
a.链接存redis中类型表：novel_list 具体每一种类型：bnovel_all_list（把novel_list和bnovel_list合并为bnovel_list）
b.名字存到mongodb中，构成树链表表名： bnovel_all_list
2.爬取小说的名字和链接(redis:all_novel_href （只需要novels 的id） mongodb:novels上一个id作为标签)
小说表：每次添加，去重（如果有就更新mongodb的数据(根据redis的id)，没有就添加到mongodb中）（可能没有重复的）
所有链接都放到redis（id(mongodb的id)+url）中，把小说名放到mongodb中
3.爬小说的首页：
1.爬取作者，书的状态（连载or完结）（更新到mongodb中）
4.根据目录去爬取所有的章节（mongodb中章名作为键，内容存的文件位置作为值）（在mongodb中可以把汉字作为键）（mongodb章节表）
vip:章节的处理，爬还是不爬？爬（要的只是书的数量，内容无所谓）
连载和完结的处理：将所有未完结书的最后一章链接都存到redis中，格式为书的id+链接
每天根据这个链接去查看有没有下一章，有就去爬取，并更改mongodb的数据库，并把链接更新（
redis的lrange or lpop操作?）
（先执行每天的查看，未完结的每次都去爬书的首页，完结就修改mongodb的数据，未完结就pass）

过几天介绍上代码

爬起点小说 day01的更多相关文章

爬起点小说 day02
总的来说起点小说还是挺好爬的,就是爬取小说的时候太慢了,4000多本小说就爬了2天一夜首先爬取的是网页的所有类别,并把类别名存入到mongodb中,链接存到redis中: import scrapy ...
爬起点小说day03
# 把所有类别的前3页的小说爬取下来 import scrapyfrom scrapy.http import Requestfrom time import sleepfrom qidianNove ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...
用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
python3下BeautifulSoup练习一（爬取小说）
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...

随机推荐

在打开Dreamweaver软件情况下，vs2010 asp项目无法调试
会出现以下情况,只要关闭Dreamweaver就可以正常调试vs2010 asp项目.
C# App 中嵌入 Chrome 浏览器
http://www.codeceo.com/article/cefsharp-charp-app-chrome.html http://developer.51cto.com/art/201304/ ...
为Android设备添加A2SD支持
相信很多用Android设备的用户都有这个问题,内部存储太小导致应用只能装那么几个,虽然rom也有提供移动到sd卡的选项,但是仅仅是移动程序文件到sd卡,并不能解决多少问题,多装几个还是会 ...
JSP前后台数据交互
1.一般方法:在页面加载时载入数据首先,新建一个包,在包内创建一个类,类实现接口Servlet-javax.servlet 然后,在web.xml文件里配置如下 <?xml version=& ...
解决Python2.7的UnicodeEncodeError:'ascii' codec can't encode characters in position 0-78: ordinal not in range(128)异常错误
解决Python2.7的UnicodeEncodeError: 'ascii' codec can't encode异常错误大家都知道,在使用python进行网络爬虫时,最头疼的就是转码问题,下面是 ...
iOS 之 UITextField
UITextField 相关细节处理: 1. 设置leftView , rightView let leftView = UIView() // 设置leftView/rightView之后,勿忘设 ...
对比jquery获取属性的方法props、attr、data
1.attr,prop 对于HTML元素本身就带有的固有属性,在处理时,使用prop方法.对于自定义的属性是取不到的: 对于HTML元素我们自己自定义的DOM属性,在处理时,使用attr方法. 2.a ...
D3.js使用过程中的常见问题(D3版本D3V4)
目录一.学习D3我必须要学习好SVG矢量图码? 二.如何理解D3给Dom节点绑定数据时的Update.Enter和Exit模式三.D3绑定数据时用datum与data有什么不一样? 四.SVG图中 ...
js 添加事件 attachEvent 和 addEventListener 的区别
1.addEventListener 适用w3c标准方法addEventListener绑定事件,如下,事件的执行顺序和绑定顺序一致,执行顺序为method1->method2->meth ...
JAVAscript学习笔记 jsBOM 第七节（原创）参考js使用表
<html> <head> <title>day02_js</title> <script type="text/javascript& ...

爬起点小说 day01

爬起点小说 day01的更多相关文章

随机推荐

热门专题