使用python书写的小说爬虫

　　1.写了一个简单的网络爬虫

　　初期1 (后期将会继续完善)

#小说的爬取

import requests

import random

from bs4 import BeautifulSoup

baseurl = "https://www.biqukan.com";

header = [{'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36'},{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},{'User-Agent':'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'},{'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},{'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)'}]

# header 是用来伪装成浏览器发送请求，一般加上最好，header 信息可以通过浏览器查看，也可在网上搜索得到。

req = requests.get(baseurl + '/s.php?ie=gbk&s=2758772450457967865&q=一念永恒',headers = header[random.randint(0,4)])   # 向目标网站发送 get 请求

result = req.content

result = result.decode('gbk')    #  查看网页源代码 看到 charset=gbk，即网页是用的 gbk 编码，故要用 gkb 的编码方式来解码，否则中文就会乱码。

# print(result);  #得到内容

req_parser = BeautifulSoup(result,"html.parser");

bookbox = req_parser.find_all('div',class_ ='bookbox');

# a_bf = BeautifulSoup(str(div),"html.parser"); # 进行进一步的字符解析因为获取要素类型的值时必须进行这一步

# 对当前的结果进行遍历得到想要的数据

for result in bookbox:

    resu = BeautifulSoup(str(result),"html.parser");

    book_image = resu.find_all('img')[0].get('src');  # 得到书名的图片

    book_name = resu.h4.a.string;  # 得到书的名称

    book_author = resu.find('div',class_ = 'author').string; #得到书的作者

    book_href = resu.h4.a.get('href'); # 得到书的链接

    book_update_name = resu.find('div',class_ = 'update').a.string; # 最新章节名称

    book_update_name_href = resu.find('div',class_ = 'update').a.get('href'); # z最新章节链接

2. 初期2 (后期将完善具体的章节内容,当前是一个书的搜索列表) **如果当前文件夹下面没有book.txt 文件就会自动创建,如果有会进行覆盖)

#小说的爬取  爬取的是书名的所有列表 根据书名或者作者进行搜索的列表

import requests

import random

from bs4 import BeautifulSoup

# 定义一个存储书的列表

book_list = [];

# 定义一个对象存储内容

class Book:

    book_image = '';

    book_name = '';

    book_author = '';

    book_href = '';

    book_update_name = '';

    book_update_name_href = '';

    def tostring(self):

        return """

        图片地址=%s

        书名=%s

        书作者=%s

        书链接=%s

        最新章节名称=%s

        最新章节地址=%s""" %(self.book_image,self.book_name,self.book_author,self.book_href,self.book_update_name,self.book_update_name_href);

baseurl = "https://www.biqukan.com";

input_book_name = input("请输入书名称==>"); 

header = [{'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36'},{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},{'User-Agent':'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'},{'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'},{'User-Agent': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)'}]

# header 是用来伪装成浏览器发送请求，一般加上最好，header 信息可以通过浏览器查看，也可在网上搜索得到。

req = requests.get(baseurl + '/s.php?ie=gbk&s=2758772450457967865&q=' + input_book_name,headers = header[random.randint(0,4)])   # 向目标网站发送 get 请求

result = req.content

result = result.decode('gbk')    #  查看网页源代码 看到 charset=gbk，即网页是用的 gbk 编码，故要用 gkb 的编码方式来解码，否则中文就会乱码。

# print(result);  #得到内容

req_parser = BeautifulSoup(result,"html.parser");

bookbox = req_parser.find_all('div',class_ ='bookbox');

# a_bf = BeautifulSoup(str(div),"html.parser"); # 进行进一步的字符解析因为获取要素类型的值时必须进行这一步

# 对当前的结果进行遍历得到想要的数据

for result in bookbox:

    resu = BeautifulSoup(str(result),"html.parser");

    book_image = resu.find_all('img')[0].get('src');  # 得到书名的图片

    book_name = resu.h4.a.string;  # 得到书的名称

    book_author = resu.find('div',class_ = 'author').string; #得到书的作者

    book_href = resu.h4.a.get('href'); # 得到书的链接

    book_update_name = resu.find('div',class_ = 'update').a.string; # 最新章节名称

    book_update_name_href = resu.find('div',class_ = 'update').a.get('href'); # z最新章节链接

    book = Book();

    book.book_image = baseurl + book_image;

    book.book_name = book_name;

    book.book_author = book_author;

    book.book_href = baseurl + book_href;

    book.book_update_name = book_update_name;

    book.book_update_name_href = baseurl + book_update_name_href;

    book_list.append(book);

with open('./book.txt','w+') as fw: # 打开文件

     for i in book_list:

        fw.write("\n")

        fw.write("***********************************************************************************************")

        fw.write("\n")

        fw.write(i.tostring())

使用python书写的小说爬虫的更多相关文章

python基础爬虫，翻译爬虫，小说爬虫
基础爬虫: # -*- coding: utf-8 -*- import requests url = 'https://www.baidu.com' # 注释1 headers = { # 注释2 ...
使用scrapy制作的小说爬虫
使用scrapy制作的小说爬虫爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660 首先是安装scrapy,在Windows下的安装比 ...
Node.js 实现简单小说爬虫
最近因为剧荒,老大追了爱奇艺的一部网剧,由丁墨的同名小说<美人为馅>改编,目前已经放出两季,虽然整部剧槽点满满,但是老大看得不亦乐乎,并且在看完第二季之后跟我要小说资源,直接要奔原著去看结 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针 ...
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模 ...
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模 ...

随机推荐

「咕咕网校 - 基础省选」树上问题的进阶 by Drench
一定要在noip之前把自己花钱买的Luogu网课梳理完!QAQ 树上前缀和: 对于有根树,在每个点记录 val (点权) 和 sum(到根的点权之和) 当然记录的值因题而异(但是既然叫树上前缀和当然就 ...
喵哈哈村的魔法考试 Round #1 (Div.2)
比赛地址:http://qscoj.cn/contest/2/ 都是中文题,这里不在详述题意 A.喵哈哈村的魔法石分析:暴力求解 #include<iostream> #include& ...
小程序不支持wx.request同步请求解决方法
小程序为了用户体验,所有的request均为异步请求,不会阻塞程序运行百牛信息技术bainiu.ltd整理发布于博客园所以当你需要同步请求,锁死操作时,最好将所有的逻辑写在success:func ...
Runnable、Callable、Future和FutureTask之二：源码解析
一.Callable与Future类图 1.类图许多任务实际上都是存在延迟的计算,对于这些任务,Callable是一种更好的抽象:它会返回一个值,并可能抛出一个异常.Callable接口: V ca ...
win7下出现'telnet' 不是内部或外部命令，也不是可运行的程序或批处理文件的解决方法
在win7竟然不可能使用telnet命令,使用时会出现“'telnet' 不是内部或外部命令,也不是可运行的程序或批处理文件”,研究了很多,才终于明白WIN7默认是没有安装这个命令. 处理办法: 依次 ...
一个获取google chrome扩展crx文件信息的PHP操作类
此类中实现了从crx文件获取扩展的Appid.获取manifest.json文件内容.将crx文件转换为一般zip文件代码如下: <?php class CrxParserException ...
注册CSDN账号的尴尬
因为新浪博客这里代码显示不大好用,打算把关于编程和应用开发的东西改到那里去写,可是点击注册.... 竟然要输入手机号,无法跳过.... 要知道,楼主现在可是在国外,压根没有可用于注册的手机号啊.. ...
python 的多线程执行速度
python 的多线程有点鸡肋,适用场景有局限,单位时间多个核只能跑一个线程. 有泳池一个,四个泵,但只有一个人,一人只能开启管理着其中一个,所以四个泵没什么用.但是,如果泵的工作时间与冷却恢复时间是 ...
左耳朵耗子：我对 GitLab 误删除数据库事件的几点思考
参考链接:https://www.infoq.cn/article/some-thoughts-on-gitlab-accidentally-deleting-database 太平洋时间 2017 ...
Django Views and URLconfs
碧玉妆成一树高,万条垂下绿丝绦. 不知细叶谁裁出,二月春风似剪刀. 原文尽在:http://djangobook.com/ 转载请注明出处:http://www.cnblogs.com/A-FM/p/ ...

使用python书写的小说爬虫

使用python书写的小说爬虫的更多相关文章

随机推荐

热门专题