一.为啥要做这个网站 很久没有写技术相关的博客了,最近几个月忙飞,各种工作,技术根本学不完,很难受. 趁着春节期间,终于有空闲时间做自己爱做的事情了,美滋滋. 热爱技术,热爱小说,于是诞生了个这么玩意. 开贴记录下,舒服. 二.项目背景 以前完成了个基于Bootstrap和Asp.Net MVC的demo产品,挂在我的扣脚低配阿里云服务器上,实现了基本的看小说和搜小说的功能,后来公司忙起来了,除了加班就是休息,没有继续维护自己的产品,导致这玩意GG了,现在也懒得维护了.但是怎么说呢,还是想有头有…
概述 在通过对世面上的各种小说网站简单了解之后(PS:好多盗版网站真的好丑哦.),去除花里胡哨的功能,保留实用功能. 初步制定了以下几个功能需求,当然,所有需求功能都是我自己设计.自己评审,大不了到时候再改嘛.(我这也算是敏捷开发?滑稽.) 一.用户体系 初步设定三类人群 1.游客 不谈了,百分之八九十的人估计都是个这... 2.普通用户 通过邮箱.微信.QQ进行注册(其实也想搞个手机注册,奈何阿里云的短信包都贵的很哩,暂时搁着吧...) 3.VIP用户 弄这玩意我其实是拒绝的,但是我看了下大部…
概述 后台数据库几个基本表基本搭建完毕,看了下Github Develop的V4 Api抛弃了RESTful,采用GraphQL,感觉很有意思,一看文档,竟然有Python的开源实现 Graphene ,这就很舒服了. 反正也是学习,搞起来. Flask + Graphene + SQLAlchamy + MariaDB 花了点小时间的,搞出了我的第一个GraphQL接口.还是有点意思的. findBookTypes{ edges{ node{ typeId typeName parentTyp…
一.爬虫策略 1.主服务器先根据spider.all set排重,再 lpush request_url 到spider.wait List中,并且 sadd request_url 到 set中: 2.两台从服务器 brpop 出最后一条url 进行解析,再抓取数据: 二.缓存策略 1.主服务器通过爬取各类排行榜或首页等Book集合.简短字段的页面 创建多个不同key的Hash expect => create {"siteId_bookId": Hash} 2.从服务器通过爬…
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面上代码: mydingdian.py import scrapy from scrapy.http import Request from ..items import DingdianItem class MydingdianSpider(scrapy.Spider): name = 'mydin…
第一次接触python,原本C语言的习惯使得我还不是很适应python的语法风格.希望读者能够给出建议. 相关的入门指导来自以下的网址:https://blog.csdn.net/c406495762/article/details/78123502编者的文章很用心,好评. 下面是本次自学的详细说明: ----->确认目标:我选择一个不是很出名的小说网,之所以这么做,是因为一些大网站上一般都有一些反爬虫机制,作为一只弱鸡,还是选个容易上手的小网站. ->穿越小说网-><妖界之门&g…
闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地 圣墟 第一章 沙漠中的彼岸花 - 辰东 - 6毛小说网  http://www.6mao.com/html/40/40184/12601161.html 这是要爬取的网页 观察结构 下一章 然后开始创建scrapy项目: 其中sixmaospider.py: # -*- coding: utf-8 -*- import scrapy from ..items import Sixma…
需求分析 免费的小说网比较多,我看的比较多的是笔趣阁.这个网站基本收费的章节刚更新,它就能同步更新,简直不要太叼.既然要批量下载小说,肯定要分析这个网站了- 在搜索栏输入地址后,发送post请求获取数据,然后根据url解析,模拟操作即可.打开Fiddler,chrome搜索一下伏天氏,然后看看抓取到的日志流: 代码实现 在我们开始编码前,先得看下parameters中的这几个参数. searchkey是什么鬼? 这是因为在因特网上传送URL,只能采用ASCII字符集.所以当传输中文时,有些网站会…
Python为我们提供了非常完善的基础代码库,覆盖了网络.文件.GUI.数据库.文本等大量内容,被形象地称作"内置电池(batteries included)".带你快速入门的Python教程百度网盘在哪?看这! 千锋Python基础教程:http://pan.baidu.com/s/1qYTZiNE Python课程教学高手晋级视频总目录:http://pan.baidu.com/s/1hrXwY8k Python课程windows知识点:http://pan.baidu.com/s…
html头部 {% extends 'base.html' %} {% load static %} {% block title %}小说首页{% endblock %} {% block content %} <div id="headerbox"> <h1 class="logo left"><a href="#"><img src="{% static 'imgs/logo.png' %…