python 爬虫-sohu抓小说

#coding:utf-8

import urllib2

import sys

import re

def getPage(url,offset = ''):

    realurl = "%s%s%s" %(url,offset,'.shtml')

    print realurl

    resp = urllib2.urlopen(realurl)

    content = resp.read()

    #print content

    p = re.compile('<[^>]+>')

    p1=re.compile('<[^>p]+>')

    print p

    rematch = re.compile(r'(<h1.*</h1>)')

    h1 = rematch.findall(content)

    print h1[0],'ok'

    try:

        h1content = p.sub("",h1[0])

        print h1content

    except Exception,e:

        print str(e),'error'

        return

    fp = open(r'juyudao.txt','a')

    fp.write(h1content+ '\n')

    fp.flush()

    #print content

    content = content.replace('\r','')

    content = content.replace('\n','')

    content = content.replace(' ','')

    content = content.replace('     ','')

    cont = re.search('articleBody(.*)class="pages">', content, re.S)#先获取一部分html

    #print 'cont1',cont.group()

    cont1=cont.group()

    articleBody=re.findall('</script>(.*)<divclass="pages">',cont1)

    #print articleBody

    articleBody=articleBody[0].replace('</p>','')

    articleBody=p1.sub('',articleBody)

    txt=articleBody.split('<p>')

    for i in txt:

        fp.write(i+ '\n')

        fp.flush()

    fp.close()

def getBook(url, startoffset, endOffset):

    while startoffset < endOffset:

        getPage(url, offset = str(startoffset))

        startoffset += 1

if __name__ == '__main__':

    getPage(url = 'http://book.sohu.com/20131107/n389762800',offset='')

    getBook(url = 'http://book.sohu.com/20131107/n389762800_',startoffset=1,endOffset=20)

python 爬虫-sohu抓小说的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫之抓取小说(逆天邪神)
2022-03-06 23:05:11 申明:自我娱乐,对自我学习过程的总结. 正文: 环境: 系统:win10, python版本:python3.10.2, 工具:pycharm. 项目目标: 实 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫——论抓包的正确姿势和学好Javascript的重要性（1）
没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御, ...

随机推荐

打开10.10.3上SSD的TRIM-黑苹果之路
对SSD没有研究,同事提出苹果对非官方的SSD不开启TRIM,上网度了一把,对TRIM不明觉厉. 一.TRIM是怎么回事:http://bbs.feng.com/read-htm-tid-187088 ...
OC基础笔记目录
OC基础(1) Objective-C简介 OC和C对比第一个OC程序面向对象思想 OC基础(2) 类与对象类的设计第一个OC类对象方法的声明和实现类方法的声明和实现 OC基础(3) 对象 ...
java内省机制Introspector
访问JavaBean属性的两种方式 1)直接调用bean的setXXX或getXXX方法: 2)通过内省技术访问(java.beans包提供了内省的API),内省技术访问也提供了两种方式: a)通过P ...
Kendo UI - Class 基类定义
在 kendo 中,使用原型继承机制,Class 是 Kendo 中的基类,定义了函数 extend 用来派生其它类. function Class() {} Class.extend = funct ...
[闲谈] 有经验的程序员用Google用得多么？
关于程序员有没有必要记一些API什么的讨论有很多,我个人觉得能Google到的就没必要刻意去记,可以简单的做个笔记,需要用的时候查一下就好了.真正有必要记的东西,用得多了自然也就能记住了. 文章不难, ...
php头函数和浏览器缓存
可以通过php头函数改变返回给浏览器的头信息例: 代码中添加头: header("Cache-Control: max-age=31536000"); header(" ...
oracle数据库中的表设置主键自增
oracle中没有自增字段,可通过序列+触发器间接实现,cmd中sqlplus登录,直接运行即可.一般要经过一下几步: 1建立数据表 create table Test_Increase( ...
jQuery Mask
<script type="text/javascript" src="/assets/mask/jquery.mask.min.js"></ ...
开源Cheops软件在企业中的应用
笔者在所属分公司的网络改造的网络改造中采用了开源软件作为其网络管理软件,曾经使用时间达2年多,没有出现过问题,其本身具备的主要管理功能完全可以商业的网管软件相媲美,下文将其部署心得和大家一起分享.一. ...
SVN与TortoiseSVN实战：补丁详解
硬广:<SVN与TortoiseSVN实战>系列已经写了五篇,第二篇<SVN与TortoiseSVN实战:标签与分支>和第三篇<SVN与TortoiseSVN实战:Tor ...

python 爬虫-sohu抓小说

python 爬虫-sohu抓小说的更多相关文章

随机推荐

热门专题