Python抓取小说

前言

这个脚本命令MAC在抓取小说写，使用Python它有几个码。

代码

# coding=utf-8

import re

import urllib2

import chardet

import sys

from bs4 import BeautifulSoup

import codecs

class Spider():

    def __init__(self):

        self.aTag=re.compile("<a href=\"(http://www.44pq.com/read/[0-9]+?_[0-9]+?.html)\"[^>]*?>(.+?)</a>")

        self.contentTag=re.compile("<div class=\"readerContent\" id=\"content\">(.+?)</div>",re.I|re.S)

    def getHtml(self, url):

        headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

        req=urllib2.Request(url,headers=headers)

        response = urllib2.urlopen(req)

        html = response.read()

        return html

        #soup=BeautifulSoup(html.decode("GB18030","ignore"))

        #return soup.findAll("a")

        #return soup.prettify()

        #typeEncode = sys.getfilesystemencoding()

        #infoencode = chardet.detect(html).get('encoding','utf-8')

        #return html.decode('GB18030','ignore').encode("utf-8")

        return html.decode('GB18030','ignore').encode(sys.getfilesystemencoding())

    def Run(self):

        bookurl="http://www.44pq.com/read/13567.html"

        bookname="地球上唯一的魔法师"

        text=[]

        matchs=self.aTag.finditer(self.getHtml(bookurl))

        alist=list(matchs)

        total = len(alist)

        print "total {0}".format(total)

        i=0

        for m in alist:

            i+=1

            text.append(m.group(2).decode("gb18030"))

            text.append(self.getContent(m.group(1)))

	    self.writeFile(bookname,"\n\n".join(text))

	    del text[:]

            print "{0}/{1}".format(i,total)

        self.writeFile(bookname,"\n\n".join(text))

        print "done!"

    def writeFile(self,filename,text):

        f=open(filename+".txt","a")

        f.write(text)

        f.close()

    def getContent(self,url):

        c=self.getHtml(url)

        c=self.contentTag.search(c).group(1)

        c=re.sub("<[^>]+?>","",c)

        c=c.replace("nbsp;","").replace("&","")

        return c.decode("gb18030")

if __name__ == '__main__':

    reload(sys)

    sys.setdefaultencoding('utf-8')

    spider = Spider()

    spider.Run()

声明一下，实在搞不定CSDN编辑器的格式问题了，上述代码中：

self.writeFile(bookname,"\n\n".join(text))

del text[:]

这两行是在for循环里的，而不应该是与keywordfor对齐的。

上面不必要的import能够删掉。以小说《地球上唯一的魔法师》为例。aTag是匹配小说文件夹全部章节的正則表達式，contentTag是匹配小说正文的正則表達式。

须要声明一点，此代码每抓取一章。就写入文件一次。以防内存占用过大。

self.writeFile(bookname,"\n\n".join(text))

del text[:]

假设须要，也能够抓取N章写入文件一次，仅仅需增加一个简单的逻辑推断就OK了。占用多少内存和写多少次文件，每一个人有自己不同的衡量标准。

Python抓取小说的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
C# 爬虫抓取小说
心血来潮,想研究下爬虫,爬点小说. 通过百度选择了个小说网站,随便找了一本小书http://www.23us.so/files/article/html/13/13655/index.html. 1. ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...

随机推荐

android获取一个用于打开Word文件的intent
近期在做项目使用webview显示后,有写文档须要打开,找了一些资料,研究了一下,弄出来了! 以下贴一下主要代码: param为文档的主要路径 public static Intent getWord ...
windows go 安装
go的安装很简单,下载go的msi文件这里提供go1.9的msi下载链接 https://www.lanzous.com/i2gb54d 直接全部next就行,默认安装在了c盘的go 然后配置环境变 ...
Android多线程研究（1）——线程基础及源码剖析
从今天起我们来看一下Android中的多线程的知识,Android入门容易,但是要完成一个完善的产品却不容易,让我们从线程开始一步步深入Android内部. 一.线程基础回顾 package com. ...
博客搬家啦！ -----> http://ronghaopger.github.io/
新地方: http://ronghaopger.github.io/ 以后这里就不更新了,感谢博客园!
QPalette实例教程（QWidget自带的颜色设置工具，对Window的各个部分都可设置颜色）
QPalette是一款非常好用的颜色设置工具: 头文件:#include <QPalette> (^-^我没有用这个头文件也可以使用QPalette) 常用函数: void setBrus ...
nuklear（A single-header ANSI C gui library，界面还不错）
Nuklear This is a minimal state immediate mode graphical user interface toolkit written in ANSI C an ...
OC常用数据类型大全解
UI基础 OC常用数据类型 Block Block封装了一段代码,可以在任何时候执行 Block可以作为函数参数或者函数的返回值,而其本身又可以带输入参数或返回值.它和传统的函数指针很类似,但是有区别 ...
echarts改变颜色属性的demo
一:柱状图改变颜色图片.png 代码: <!DOCTYPE html> <html> <head> <meta charset="UTF-8&qu ...
java基本数据类型练习
package javafirst;//包名 public class JavaFirstDay { //基本数据类型的练习 public static void main(String[] args ...
Power control within a coherent multi-processing system
Within a multi-processing system including a plurality of processor cores 4, 6operating in accordanc ...

Python抓取小说

Python抓取小说

前言

代码

Python抓取小说的更多相关文章

随机推荐

热门专题