抓取biqukan

#python3.7

'''

功能：实现www.biqukan.com/1_1094/5403177.html小说下载为txt
v1.0

'''

import requests,sys,time

from lxml import etree

##0.获取所有章节url

def get_url_list(catalog_url):

    res=requests.get(catalog_url)

    #time.sleep(1)

    if res.status_code==200:

        text=res.text

        html=etree.HTML(text)

        hrefs=html.xpath('//div[@class="listmain"]/dl/dt[2]/following-sibling::*/a/@href')

        #print('hrefs')

        return hrefs

    return None

##1.获取页面

def get_one_page(url):

    res=requests.get(url)

    #time.sleep(1)

    if res.status_code==200:

        return res.text

    return None

##2.解析页面

def parse_one_page(text):

    html=etree.HTML(text)

    title=html.xpath('//div[@class="content"]/h1//text()')

    content=html.xpath('//div[@class="showtxt"]//text()') #去掉换行

    contents=''.join(content).replace('\xa0'*8,'\n'*2)#把列表转换为一整段文本，并把8个空格换为2个换行

    #print(title,contents)

    #print(title)

    return title,contents #返回多个参数，相当于返回一个元组return(title,content)

##3.保存内面

def write_to_file(title,contents):

    with open('一念永恒.txt','a',encoding='utf-8')as f:

        f.write(title[0]+'\n'+contents+'\n')

        #for content in contents:

        #    f.write(content)

##主函数

def main():

    #0.获取章节列表的网址

    catalog_url='https://www.biqukan.com/1_1094/'

    urls=get_url_list(catalog_url)

    #print(urls)

    #1.把网址传入详情抓取页面，并保存

    for i in range(len(urls)):

        rel_url='https://www.biqukan.com'+urls[i]

        print(rel_url)

        text=get_one_page(rel_url)

        #接收2步return的多个参数写法a,b=(x,y)

        title,contents=parse_one_page(text)

        #print(title,contents)

        #写入txt

        write_to_file(title[0],contents)

        #显示下载进度

        sys.stdout.write("  已下载:%.3f%%" %  float(i/len(urls)) + '\r')

        sys.stdout.flush()

##执行入口

if __name__=='__main__':

    main()

抓取biqukan的更多相关文章

【爬虫】biqukan抓取2.0版
#!python3.7 import requests,sys,time,logging,random from lxml import etree logging.basicConfig(level ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
用WebRequest +HtmlAgilityPack 从外网抓取数据到本地
相信大家对于WebRequest 并不陌生,我们在C#中发请求的方式,就是创建一个WebRequest .那么如果我们想发一个请求到外网,比如国内上不了的一些网站,那么该怎么做呢? 其实WebRequ ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
[转]Fiddler抓取Android真机上的HTTPS包
此篇文章转载自:http://blog.csdn.net/roland_sun/article/details/30078353 工作中经常会需要对一些app进行抓包, 但是每次默认都是只抓http请 ...
爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...

随机推荐

防止atoi函数内存越界
函数形式为: int atoi(const char *nptr); 函数说明: 参数nptr字符串,如果第一个非空格字符不存在或者不是数字也不是正负号则返回零,否则开始做类型转换,之后检测到非 ...
【生产问题】记还原一个很小的BAK文件，但却花了很长时间，分析过程
[生产问题]还原一个很小的BAK文件,但却花了很长时间? 关键词:备份时事务日志太大会发生什么?还原时,事务日志太大会怎么办? 1.前提: [1.1]原库数据已经丢失,只有这个bak了 [1.2]ba ...
小睿开始呼叫用户,然后FS怎么跟用户交互的整个流程原理
学习从小睿开始呼叫用户,然后FS怎么跟用户交互的整个流程原理; 1.小睿向欣方新发起呼叫请求; 2.欣方新可以通过线路发起SIP协议请求,来呼叫用户; 3.当用户接通后,将建立 ...
Font Awesome 最简单应用例子
简介: Font Awesome为您提供可缩放的矢量图标,您可以使用CSS所提供的所有特性对它们进行更改,包括:大小.颜色.阴影或者其它任何支持的效果. 使用方法: 引入<link rel=&q ...
几种Robust方法对比
1.Mean Absolute Deviation http://mathbits.com/MathBits/TISection/Statistics1/MAD.html 2.Median Absol ...
Linux下安装zookeeper集群(奇数个)
1. 解压zookeeper压缩包 2. data里创建“myid”文件(命令touch myid),内容是1(命令 echo 1 >> myid) 3. zoo.cnf里配置dat ...
openshift 容器云从入门到崩溃之三《安装openshift》
准备好环境,在安装之前请先了解openshift提供的ansible有大量的安装选项文档地址:https://docs.okd.io/latest/install/configuring_inven ...
Element-ui的表单中怎么添加正则校验
1. 以中国大陆手机号验证为例 // 这是组价的代码 <el-form-item prop="mobile"> <el-input type="text ...
jenkins 新增用户和修改用户名密码
在某些条件下,jenkins是不允许注册用户的,这是,你可以采用如下的方式来新增用户,对于老的用户,忘记密码了,使用如下方式来重置密码. 1.系统管理-->管理用户 ----> 新建用户 ...
《Java程序设计》第十一章 JDBC与MySQL数据库
目录 java.sql Tips java.sql 安装导入方法见娄老师博客Intellj IDEA 简易教程照惯例给出官方文档Package java.sql,记得熟练使用ctrl+f以及提高英语 ...

抓取biqukan

抓取biqukan的更多相关文章

随机推荐

热门专题