爬虫入门实例：利用requests库爬取笔趣小说网

w3cschool上的来练练手，爬取笔趣看小说http://www.biqukan.com/，

爬取《凡人修仙传仙界篇》的所有章节

1.利用requests访问目标网址，使用了get方法

2.使用BeautifulSoup解析返回的网页信息，使用了BeautifulSoup方法

3.从中获取我们需要的小说内容，使用了find，find_all等方法

4.进行格式化处理，主要是python里字典和列表的运算

5.保存到txt文件，涉及一些简单的文件操作，open，write等

import requests

from bs4 import BeautifulSoup

from selenium import webdriver

import os

class NovelSpider:

    def __init__(self):

        self.start_url = 'https://www.biqukan.com/1_1680/'

    def get_novel(self):

        # 访问起始URL

        response = requests.get(self.start_url)

        # 这里用lxml解析器会出问题，找了好久才发现。。。

        soup = BeautifulSoup(response.text, 'html.parser')

        # print(response.text)

        div_chapter = soup.find(class_="listmain")

        # print(div_chapter)
　　　　  # 选取所有的a标签，a标签包含所有章节名称和URL

        chapter_list = div_chapter.find_all('a')

        # 这里去除前12个重复的章节（具体看html代码）

        chapter_list = chapter_list[12:]

        #print(chapter_list)

        chapter = []

        # 记录总章节数，下载显示完成率

        chapter_num = len(chapter_list)

        # 设置计数器

        count = 0

        # 循环对每个章节进行访问和下载

        print('《凡人修仙传仙界篇》开始下载:')

        for cl in chapter_list:

            chapter_dict = {}

            chapter_name = cl.get_text()

            # 抓取章节名称

            chapter_dict['name'] = chapter_name

            chapter_url = cl.get('href')

            # 抓取章节URL地址

            chapter_dict['value'] = 'https://www.biqukan.com' + chapter_url

            if chapter_dict not in chapter:

                chapter.append(chapter_dict)

            print(f"已下载:{count}/{chapter_num}")

            # 调用download_novel（），按章节下载小说

            self.download_novel(chapter_dict)

            # 同时计数器加一

            count += 1

    def parse_novel(self, url):

        # 小说章节的具体内容是动态加载的，用Phantom访问

        browser = webdriver.PhantomJS(executable_path=r'F:\Spider\novelSpider\phantomjs.exe')

        browser.get(url)

        soup = BeautifulSoup(browser.page_source, 'html.parser')

        find_txt = soup.find(class_='showtxt')

        # print(type(find_txt.get_text()))

        return find_txt.get_text()

    def download_novel(self, data):  # data是{name：章节名，value：章节url地址}的字典

        filename = data['name']

        url = data['value']

        # 通过url访问小说章节的具体内容，返回小说内容，str

        txt = self.parse_novel(url)

        # 设置下载存储路径

        path = r"F:\Spider\novelSpider"

        # 检查路径是否存在，否则创建新的文件夹

        isExists = os.path.exists(path)

        if not isExists:

            # print('创建了新的文件夹')

            os.mkdir(path)

        else:

            # print('文件夹已存在')

            pass

        # 保存txt文件

        with open(path + f'\凡人修仙传仙界篇.txt', 'a', encoding='utf-8') as f:

            # print(f'正在下载--{filename}')

            f.write(f'{filename}\n\n')

            f.write(txt)

            # 章节分割线

            f.write('\n======\n\n')

            f.close()

if __name__ == '__main__':

    ns = NovelSpider()

    ns.get_novel()

下载真的是超级慢，，，好像是PhantomJS访问花时间，，有待学习和改进！

爬虫入门实例：利用requests库爬取笔趣小说网的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫系列4：Requests+Xpath 爬取动态数据
爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列1：Requests+Xpath 爬取豆瓣电影TOP
爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

vux环境配置
第一步在vue项目中的package.json文件的dependencies中添加下面三行,即安装vux及其相关依赖 "vux":"^2.7.3", &quo ...
TCP可靠数据传输
TCP可靠数据传输在TCP在IP不可靠的尽力而为的服务之上,创建了一条可靠数据传输服务(reliable data transfer service).TCP提供的可靠数据传输的方法涉及到可靠数 ...
CSS定位概述
CSS中有三种基本的定位机制:普通流,浮动和绝对定位. 1.相对定位:relative 如果对一个元素进行相对定位,它将出现在它所在的位置上,然后可以通过设置垂直或者水平位置,让这个元素“相对于” ...
利用Python测量滴水湖的水面面积
美丽的滴水湖美丽的滴水湖坐落在上海的东南角,濒临东海,风景秀丽,安静舒适,是旅游.恋爱的绝佳去处.笔者有幸去过一回,对那儿的风土人情留下了深刻的印象,如果有机会,笔者还会多去几次! 滴水湖是 ...
使用.Net Core 2.1开发Captcha图片验证码服务
更新后续篇:Captcha服务(后续1) 使用.Net Core 2.1开发Captcha验证码服务开发工具:Visual Studio 2017 15.7.3 开发平台:64位 Windows 1 ...
JQuery官方学习资料（译）：Attributes
Attributes 元素的属性可以为你的应用程序包含有用的信息,重要的是能够获取和设置它. .attr()方法 .attr()方法是可获取和可设置的,在设置状态下,.attr()可以 ...
Ubuntu 18.1远程登录服务器--ssh的安装
默认的Ubuntu 18.1桌面版没有安装ssh远程登录服务: 打开"终端窗口",输入"sudo apt-get update"-->回车-->&q ...
什么是kibana?
简介 Kibana 是一款开源的数据分析和可视化平台,它是 Elastic Stack 成员之一,设计用于和 Elasticsearch 协作.您可以使用 Kibana 对 Elasticsearch ...
eclipse提交到git
前言今天是我正式加入GitHub的第一天,作为世界上最大的同性交友社区,以push和pull出名的它,让我坠入其中并无法自拔,废话不多说,上教程: 步骤一首先,你需要注册一个github账号,相信 ...
mysql用户授权、数据库权限管理、sql语法详解
mysql用户授权.数据库权限管理.sql语法详解 —— NiceCui 某个数据库所有的权限 ALL 后面+ PRIVILEGES SQL 某个数据库特定的权限SQL mysql 授权语法 SQL ...

爬虫入门实例：利用requests库爬取笔趣小说网

爬虫入门实例：利用requests库爬取笔趣小说网的更多相关文章

随机推荐

热门专题