Python爬虫-《神雕侠侣》

Python3.5

爬取《神雕侠侣》http://www.kanunu8.com/wuxia/201102/1610.html

武侠迷，所以喜欢爬取武侠小说

#!/usr/bin/python

# -*- coding: utf-8 -*-

from selenium import webdriver

import os

from docx import Document

import re

class House():

    def __init__(self):

        self.headers = {

            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.95 Safari/537.36'}

        self.baseUrl = 'http://www.kanunu8.com/wuxia/201102/1610.html'

        self.basePath = os.path.dirname(__file__)

    def makedir(self, name):

        path = os.path.join(self.basePath, name)

        isExist = os.path.exists(path)

        if not isExist:

            os.makedirs(path)

            print('File has been created.')

        else:

            print('The file is existed.')

        #切换到该目录下

        os.chdir(path)

    def connect(self, url):

        try:

            driver = webdriver.PhantomJS()

            driver.get(url)

            return driver

        except:

            print('This page is not existed.')

    #爬取每个板块中每一章节的链接地址

    def getBookLinkList(self, url):

        driver = self.connect(url)

        bookLinkList = []

        try:

            #找到所有href链接

            bookLinks = driver.find_elements_by_xpath("//a")

            for link in bookLinks:

                temp = link.get_attribute('href')

                print(temp)

                try:

                    #通过正则表达式筛选出各章节的链接

                    pattern = re.compile(".+\/[0-9]{5}\.html$")

                    if pattern.match(temp):

                        print('ok')

                        bookLinkList.append(link.get_attribute('href'))

                except:

                    print('little error')

        except:

            print('Error')

        return bookLinkList

    #爬取每本书的细节数据

    def getBookDetail(self, url):

        driver = self.connect(url)

        try:

            #找到标题和文章内容

            title = driver.find_element_by_xpath('//h2').text

            content = driver.find_element_by_xpath('//p').text

            print(title)

            print(content)

        except:

            print('Error.')

        return title, content

    def getData(self):

        doc = Document()

        self.makedir('StoryFiles')

        bookLinkList = self.getBookLinkList(self.baseUrl)

        for linkUrl in bookLinkList:

            doc.add_paragraph(self.getBookDetail(linkUrl))

        doc.save('神雕侠侣.docx')

if __name__ == '__main__':

    house = House()

    house.getData()

Python爬虫-《神雕侠侣》的更多相关文章

爬虫前篇 /https协议原理剖析
爬虫前篇 /https协议原理剖析目录爬虫前篇 /https协议原理剖析 1. http协议是不安全的 2. 使用对称秘钥进行数据加密 3. 动态对称秘钥和非对称秘钥 4. CA证书的应用 5. ...
Python网络爬虫http和https协议
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
Python爬虫-02：HTTPS请求与响应，以及抓包工具Fiddler的使用
目录 1. HTTP和HTTPS 1.1. HTTP的请求和响应流程:打开一个网页的过程 1.2. URL 2. 客户端HTTP请求 3. Fiddler抓包工具的使用 3.1. 工作原理 3.2. ...
java爬虫爬取https协议的网站时，SSL报错， java.lang.IllegalArgumentException TSLv1.2 报错
目前在广州一家小公司实习,这里的学习环境还是挺好的,今天公司从业十几年的大佬让我检查一下几年前的爬虫程序是否还能使用…… 我从myeclipse上check out了大佬的程序,放到workspace ...
Python爬虫帮你打包下载所有抖音好听的背景音乐，还不快收藏一起听歌【华为云技术分享】
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
python爬虫相关
一.Python re模块的基本用法: https://blog.csdn.net/chenmozhe22/article/details/80601971 二.爬取网页图片 https://www. ...
02.Python网络爬虫第二弹《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
Python网络爬虫第二弹《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...
python网络爬虫《http和https协议》
一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文 ...

随机推荐

js 暂停几秒后刷新或提交
js源码如下: setTimeout(function () { //内容3秒后执行 }, 3000);
java-逻辑处理
类名是ItemDAO package dao; import java.sql.Connection; import java.sql.PreparedStatement; import java.s ...
NX二次开发-用户自定义资源栏选项卡RegisterActivationCallback
最近在研究UGOPEN文件夹里的例子,发现从NX10版开始可以用户自定义资源栏选项卡了,NX10以下也可以做,但是需要反编译DLL调内部函数,这个只有高手才会,我是不会弄. 以前看过有人把标准件库做到 ...
yield和生成器，通过斐波那契数列学习（2.5）
实现斐波那契数列的集中方法返回一个数 def fib(max): n, a, b = 0, 0, 1 while n < max: print(b) a, b = b, a+b n += 1 ...
Python的从头再来
虽然各种视频,文档看了不少.但是都没有系统的总结.现在要把Python从最基础开始总结,回归.也当作自己的复习.
贪婪算法--Python
贪婪算法:每步都采取最优的做法,即每步都选择局部最优解,最终得到的就是全局最优解. 假设你办了个广播节目,要让全美50个州的听众都收听得到.为此你需要决定在哪些广播台播出.在每个广播台播出都需要支付费 ...
【前端控件】JQuery datepicker 日期控件设置
datepicker控件可通过参数设置进行语言切换,以下可实现,系统所有日期控件默认为中文,在特定页面或者特定条件下可切换成英语!~ HTML: <!DOCTYPE html> <h ...
SonarQube搭建和使用教程
我想使用 SonarQube 查阅代码请问怎么做,现在只有一个要审查代码的项目
shell默认参数脚本
如果不加参数则默认执行restart函数,加stop,则执行stop函数 #!/bin/bash # version function stop(){ # stop the command } fun ...
Excel简单应用
数据透视表的简单应用 LEN.LENB MID LEFT,RIGHT CONCATENATE 和 & TRIM(去掉前后空格) 和 SUBSTITUDE(去空格,包括字符串之间的空格) FIN ...

Python爬虫-《神雕侠侣》

Python爬虫-《神雕侠侣》的更多相关文章

随机推荐

热门专题