网络爬虫&起点中文网完本榜500部小说

# 网络爬虫爬取起点中文网完本榜小说500部
# 四步，分步操作，不易出错
#  所需要获取的数据：书名 、作者、网址、类型、主要介绍、作品信息

from urllib.request import *  #导入所有的request，urllib相当于一个文件夹，用到它里面的方法request
from lxml.etree import *  #调用包
import pickle #
import time
import pickle,fake_useragent
# 第一步，将25页起点完本榜的每部小说的名字和相对应的链接写入txt文件中

# arr=[]
# url0='https://www.qidian.com/rank/fin?page='
# urls=[ url0+str(i) for i in range(1,26)]
#
#
# def aa(link):
#     time.sleep(1)
#     print("正在爬取:%s"%link)   #提示信息可以实时看到爬取信息
#     with urlopen(link) as html:  # 在html中打开爬取的数据
#         text = html.read().decode("utf-8")# 读取并且解码数据
#         doc =HTML(text)       #解析html  etree这是lxml中的方法
#     url=doc.xpath("//div[@class='book-img-text']/ul/li/div[@class='book-mid-info']/h4/a/@href")
#     name=doc.xpath("//div[@class='book-img-text']/ul/li/div[@class='book-mid-info']/h4/a/text()")
#
#     arr.append(list(zip(name,url))) #用append方法将爬取数据添加到数组arr
# for link in urls:
#     aa(link)
# print(arr)
# with open("完本榜.txt",'wb') as f: #打开本地文件“完本榜.txt”以写的方式，二进制
#     pickle.dump(arr,f)     #pickle包

# 第二步，将每部小说链接内的作者、类型、主要介绍、作品信息分别获取到并写入txt1文件中

# with open('完本榜.txt','rb') as f:
#     arr1 = pickle.load(f)
# lists = []
# for arr2 in arr1:
#     for name,url in arr2:
#         url='https:'+url
#         lists.append(url)
#
# print(lists)
# #获取代理开始（让网站不认为你在爬取数据）
# ua = fake_useragent.UserAgent()
# header = {
#     'User-Agent':ua.random
# }
# list2 = []
# def spider(url):
#     time.sleep(1)
#     # print("正在爬取:%s"%url)   #提示信息可以实时看到爬取信息
#     req = Request(url,headers=header)
#     with urlopen(req) as html:
#         text = html.read().decode()
#     doc =HTML(text)
#     # 作者
#     pl1 = doc.xpath("//span/a[@class='writer']/text()")
#     # 类型
#     # print(pl1)
#
#     pl2 = doc.xpath("//p/a[@class='red']/text()")
#     # 主要介绍
#     # print(pl2)
#     #
#     pl3 = doc.xpath("//p[@class='intro']/text()")
#     # 作品信息
#     # print(pl3)
#     #
#     pl4 = doc.xpath("//div[@class='book-info-detail']/div[@class='book-intro']/p/text()")
#     # print(pl4)
#
#     list2.append(list(zip(pl1, pl2,pl3,pl4)))  # 用append方法将爬取数据添加到数组lists
#     print(list2)
# for url in lists:
#     mm=spider(url)
# with open("完本榜1.txt",'wb') as f: #打开本地文件“完本榜.txt”以写的方式，二进制
#     pickle.dump(list2,f)     #pickle包

# 第三步，将txt文件写入表格xls中

# import xlwt#（写入）
# wb=xlwt.Workbook()  #创建表格对象
# ws=wb.add_sheet("完本榜")
# with open("完本榜.txt",'rb') as f:
#     arr6=pickle.load(f)
# index=0
# for arr7 in arr6:
#     for name,url in arr7:
#         #序号
#         ws.write(index,0,index+1)
#         # title
#         ws.write(index,1,name)
#         ws.write(index,2,url)
#         index+=1
# wb.save("完本榜.xls")

# 第四步  将txt文件写入xls1中
import xlwt#（写入）
wb=xlwt.Workbook()  #创建表格对象
ws=wb.add_sheet("完本榜1")
with open("完本榜1.txt",'rb') as f:
    arr6=pickle.load(f)
index=0
for arr7 in arr6:
    for pl1,pl2,pl3,pl4 in arr7:
        #序号
        # ws.write(index,0,index+1)
        # title
        ws.write(index,3,pl1)
        ws.write(index,4,pl2)
        ws.write(index,5,pl3)
        ws.write(index,6,pl4)
        index+=1
wb.save("完本榜1.xls")

网络爬虫&起点中文网完本榜500部小说的更多相关文章

爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字，作者，等一些基本信息，并存入csv中
爬虫简单之二---使用进程爬取起点中文网的六万多也页小说的名字,作者,等一些基本信息,并存入csv中准备使用的环境和库Python3.6 + requests + bs4 + csv + multi ...
什么是网络爬虫(Spider) 程序
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序.它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访 ...
larbin是一种开源的网络爬虫/网络蜘
larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发.larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源.Lar ...
从0到1学习node之简易的网络爬虫
本文地址: http://www.xiabingbao.com/node/2017/01/19/node-spider.html 我们这节的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到 ...
用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
从零开始学Python网络爬虫PDF高清完整版免费下载|百度网盘
百度网盘:从零开始学Python网络爬虫PDF高清完整版免费下载提取码:wy36 目录前言第1章 Python零基础语法入门 11.1 Python与PyCharm安装 11.1.1 Python ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
NodeJs 入门到放弃 — 常用模块及网络爬虫(二)
码文不易啊,转载请带上本文链接呀,感谢感谢 https://www.cnblogs.com/echoyya/p/14473101.html 目录码文不易啊,转载请带上本文链接呀,感谢感谢 https ...

随机推荐

arcgis for js 之获取两点之间的距离
换了新公司,接触新行业,半路出家,看着别人的代码,看着api慢慢理解. 需求如下:已知两点坐标求距离. 思路,没有,站在同事的肩膀上踩路子,给的这个链接 https://developers.arcg ...
kubernetes 开发 code-generator
主要参考项目 https://github.com/kubernetes/code-generator 1. git clone https://github.com/kubernetes/code- ...
[Offer收割] 编程练习赛63
题目1 : 命名时间限制:5000ms 单点时限:1000ms 内存限制:256MB 描述有两个公司想要合并,第一个公司的名字是一个字符串S,第二个公司的名字是一个字符串T. 合并后的新公司是这样 ...
GCOV&LCOV&GCOVR入门
索引一.概述二.关于gcov的安装三.代码覆盖率测试(以GCOV为例) 1.编译源代码 2.运行可执行程序 3.通过gcov指令生成代码覆盖率报告四.生成更全面.直观的代码覆盖率报告 1.LC ...
shell 环境变量的相关配置文件和配置方法
shell 环境变量的相关配置文件和配置方法: bash 的配置文件: 全局配置: /etc/profile, /etc/profile.d/*.sh, /etc/bashrc 个人配置 ~/.bas ...
MySql 查询表结构信息
select Column_name as 列名,is_nullable as 是否可为空,data_type as 数据类型,column_default as 默认值,case when colu ...
Java中静态变量与实例变量
知识回顾上一篇总结了java中成员变量和局部变量的区别,这一篇将总结静态变量和实例变量的一些特性和区别. 示例代码 package Variable; public class VariableDe ...
mui上拉加载会影响页面中的某些点击事件
项目是vue写的(移动端) <div class="mui-scroll"> <a :href="bannerinfo.activity_url&quo ...
Lintcode489-Convert Array List to Linked List-Easy
489. Convert Array List to Linked List Convert an array list to a linked list. Example Example 1: In ...
Java核心知识盘点（三）- 框架篇-Spring
Spring的两大核心特性:IOC.AOP IOC:控制反转.依赖注入,它并不是一种技术实现,而是一种思想.把一些相互依赖对象的创建.协调工作交给Spring容器来管理,每个对象只需要关注其自身的业务 ...

网络爬虫&起点中文网完本榜500部小说

网络爬虫&起点中文网完本榜500部小说的更多相关文章

随机推荐

热门专题