笔趣阁小说 selenium爬取

import re

from time import sleep

from lxml import etree

from selenium import webdriver

options = webdriver.ChromeOptions()

#options.add_argument('--headless')

options.add_argument(

    "User-Agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36")

options.add_argument("Referer=https://s.weibo.com/")

options.add_argument('--no-sandbox')

options.add_argument('--disable-dev-shm-usage')

options.add_argument('blink-settings=imagesEnabled=false')

options.add_argument('--disable-gpu')

options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面

options.add_argument(

    'Cookie: ')

class Qidian:

    def __init__(self, url, driver):

        self.url = url

        self.driver = driver

        content = self.get_content(url)

        self.file_name = self.pase_file_name(content)

    def crawl_start(self):

        content = self.get_content(self.url)

        self.parse_detail(content)

    def get_content(self,url):

        self.driver.get(url)

        content = driver.page_source

        return content

    def pase_file_name(self, content):

        html = etree.HTML(content)

        file_info = html.xpath('//*[@id="info"]/h1/text()')

        file_name = file_info[0] + ".txt"

        return file_name

    def parse_detail(self, content):

        html = etree.HTML(content)

        ul = html.xpath('//div[@id="list"]/dl//dd')

        open(self.file_name, 'w')

        for li in ul:

            item = {}

            title = li.xpath('./a/text()')

            href = li.xpath('./a/@href')

            item['title'] = title[0]

            item['href'] = "http://www.biquge.info/0_273/" + href[0]

            print(item)

            driver.get(item['href'])

            html = etree.HTML(driver.page_source)

            details = html.xpath('//*[@id="content"]//text()')

            detail = ''.join(details)

            self.save_to_file(self.file_name, title[0], detail)

            sleep(3)

    def save_to_file(self, file_name, title, content):

        with open(file_name, 'a+') as f:

            f.write(title + '\n')

            f.write(content)

            f.write('\n')

            f.close()

if __name__ == "__main__":

    url = "http://www.biquge.info/0_273/"

    driver = webdriver.Chrome(options=options)

    try:

        qidian = Qidian(url, driver)

        qidian.crawl_start()

        driver.quit()

    except Exception as e:

        print(str(e))

笔趣阁小说 selenium爬取的更多相关文章

python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...
免app下载笔趣阁小说
第一次更新:发现一个问题,就是有时候网页排版有问题的话容易下载到多余章节,如下图所示: 网站抽风多了一个正文一栏,这样的话就会重复下载1603--1703章节. 解决办法: 于是在写入内容前加了一个章 ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...
scrapycrawl 爬取笔趣阁小说
前言第一次发到博客上..不太会排版见谅最近在看一些爬虫教学的视频,有感而发,大学的时候看盗版小说网站觉得很能赚钱,心想自己也要搞个,正好想爬点小说能不能试试做个网站(网站搭建啥的都不会...) 站 ...
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
HttpClients+Jsoup抓取笔趣阁小说，并保存到本地TXT文件
前言首先先介绍一下Jsoup:(摘自官网) jsoup is a Java library for working with real-world HTML. It provides a very ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...

随机推荐

db2官方文档
开局贴链接.这个东西是真坑,下载竟然需要账号... (我就做一下记录,别喷我)
Dos拒绝服务Sockstress/TearDrop 泪滴攻击（二）
Sockstress放大攻击原理:攻击者向目标发送一个很小的流量,但是会造成产生的攻击流量是一个巨大的.成百上千倍上万倍流量被放大的一个效果,才适合作为一个拒绝服务攻击效果.(实现攻击者很小的流量打垮 ...
[剑指Offer]65-不用加减乘除做加法
题目写一个函数,求两个整数之和,要求在函数体内不得使用+.-.*./四则运算符号. 题解用位运算模拟加法的三步: 无进位加法:异或运算. 进位:与运算再左移一位. 直到进位为0结束. 代码 pub ...
python字符串和列表小案例
python 目录 python 一.字符串 1.给定一个字符串,利用切片将字符串反转 2.给定一个字符串,将空格替换为逗号 3.给定一个字符串,大写改为小写 4.str = '' ,li = ['l ...
C#调用Power Shell 管理Office365 执行脚本时遇到的问题
Power Shell管理Office参考http://www.mamicode.com/info-detail-494553.html C#调用Power Shell 参考 https://www. ...
（专题一）03 matlab变量及其操作
给内存单元取名字就可以访问内存单元变量的命名:变量名区分大小写标准函数名以及命名方式必须用小写字母 matlab赋值语句有两种表达式变量的管理 1.预定义变量 ans 是默认赋值变 ...
数组如何在ElasticSearch中索引
一.简介在ElasticSearch里没有专门的数组类型,任何一个字段都可以有零个和多个值.当字段值的个数大于1时,字段类型就变成了数组. 下面以视频数据为例,介绍ElasticSearch如何索引 ...
Java10新特性
局部变量的类型推断这个功能减少与编写Java相关的冗长度,同时保持对静态类型安全性的承诺使用举例 public static void main(String[] args) { // 使用var ...
Java Web学习（三）数据加密方式详解
一.对称加密定义:加密和解密使用相同密钥的算法. 常见的有DES.3DES.AES.PBE等加密算法,这几种算法安全性依次是逐渐增强的. DES加密特点:简便.密钥长度比较短. import ja ...
刷题[CISCN2019 华北赛区 Day2 Web1]Hack World
解题思路打开发现是很简单的页面,告诉了表名和列名,只需知道字段即可尝试一下,输入1,2都有内容,后面无内容.输入1'让他报错,发现返回bool(false) 大概思路就是布尔型注入了,通过不断返回 ...

笔趣阁小说 selenium爬取

笔趣阁小说 selenium爬取的更多相关文章

随机推荐

热门专题