抓取biqukan

#python3.7

'''

功能：实现www.biqukan.com/1_1094/5403177.html小说下载为txt
v1.0

'''

import requests,sys,time

from lxml import etree

##0.获取所有章节url

def get_url_list(catalog_url):

    res=requests.get(catalog_url)

    #time.sleep(1)

    if res.status_code==200:

        text=res.text

        html=etree.HTML(text)

        hrefs=html.xpath('//div[@class="listmain"]/dl/dt[2]/following-sibling::*/a/@href')

        #print('hrefs')

        return hrefs

    return None

##1.获取页面

def get_one_page(url):

    res=requests.get(url)

    #time.sleep(1)

    if res.status_code==200:

        return res.text

    return None

##2.解析页面

def parse_one_page(text):

    html=etree.HTML(text)

    title=html.xpath('//div[@class="content"]/h1//text()')

    content=html.xpath('//div[@class="showtxt"]//text()') #去掉换行

    contents=''.join(content).replace('\xa0'*8,'\n'*2)#把列表转换为一整段文本，并把8个空格换为2个换行

    #print(title,contents)

    #print(title)

    return title,contents #返回多个参数，相当于返回一个元组return(title,content)

##3.保存内面

def write_to_file(title,contents):

    with open('一念永恒.txt','a',encoding='utf-8')as f:

        f.write(title[0]+'\n'+contents+'\n')

        #for content in contents:

        #    f.write(content)

##主函数

def main():

    #0.获取章节列表的网址

    catalog_url='https://www.biqukan.com/1_1094/'

    urls=get_url_list(catalog_url)

    #print(urls)

    #1.把网址传入详情抓取页面，并保存

    for i in range(len(urls)):

        rel_url='https://www.biqukan.com'+urls[i]

        print(rel_url)

        text=get_one_page(rel_url)

        #接收2步return的多个参数写法a,b=(x,y)

        title,contents=parse_one_page(text)

        #print(title,contents)

        #写入txt

        write_to_file(title[0],contents)

        #显示下载进度

        sys.stdout.write("  已下载:%.3f%%" %  float(i/len(urls)) + '\r')

        sys.stdout.flush()

##执行入口

if __name__=='__main__':

    main()

抓取biqukan的更多相关文章

【爬虫】biqukan抓取2.0版
#!python3.7 import requests,sys,time,logging,random from lxml import etree logging.basicConfig(level ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
用WebRequest +HtmlAgilityPack 从外网抓取数据到本地
相信大家对于WebRequest 并不陌生,我们在C#中发请求的方式,就是创建一个WebRequest .那么如果我们想发一个请求到外网,比如国内上不了的一些网站,那么该怎么做呢? 其实WebRequ ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
[转]Fiddler抓取Android真机上的HTTPS包
此篇文章转载自:http://blog.csdn.net/roland_sun/article/details/30078353 工作中经常会需要对一些app进行抓包, 但是每次默认都是只抓http请 ...
爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...

随机推荐

jquery有几种选择器？
①.基本选择器:#id,class,element,*: ②.层次选择器:parent > child,prev + next,prev ~ siblings: ③.基本过滤器选择器::firs ...
ReentrantLock可重入锁的原理及使用场景
摘要从使用场景的角度出发来介绍对ReentrantLock的使用,相对来说容易理解一些. 场景1:如果已加锁,则不再重复加锁 a.忽略重复加锁.b.用在界面交互时点击执行较长时间请求操作时,防止多次 ...
CentOS 7.2编译安装nginx1.10.3+MySQL5.5.38+PHP5.5.38
1.关闭firewallad 关闭防火墙 systemctl stop firewalld.service 禁止firewall开机启动 systemctl disable firewalld.ser ...
Wi-Fi 协议和数率?
IEEE 802.11Wi-Fi 协议摘要协议频率信号最大数据速率传统 802.11 2.4GHz FHSS 或 DSSS 2Mbps 802.11A 5GHz OFDM 54Mbps 80 ...
Linux Shell的18条常用命令整理
1. ls: 类似于dos下的dir命令 ls最常用的参数有三个:-a -l -F. ls –a Linux上的文件以.开头的文件被系统视为隐藏文件,仅用ls命令是看不到他们的,而用ls -a除了 ...
ul+li水平居中的几种方法
一.posotion:relative; 代码: <!DOCTYPE html> <html> <head> <meta charset="UTF- ...
jsp在select中的option中编写if标签
<select onchange="lxx(this)"> <option value="">全部</option> < ...
Scala辅助构造器和主构造器
和java或c++一样,scala也可以有任意多的构造器.不过,scala类有一个构造器比其它所有构造器都更为重要,它就是主构造器.除了主构造器之外,类还可以有任意多的辅助构造器. 有两点需要注意: ...
POJ1611：The Suspects（模板题）
http://poj.org/problem?id=1611 Description Severe acute respiratory syndrome (SARS), an atypical pne ...
maven配置本地仓库通用
只要在settings.xml文件中指定仓库就可以了,然后复制仓库到任何地方都可以使用,eclipse中指定一个settings.xml就可以了仓库的位置是.locks所在目录

抓取biqukan

抓取biqukan的更多相关文章

随机推荐

热门专题