python 爬虫-sohu抓小说

#coding:utf-8

import urllib2

import sys

import re

def getPage(url,offset = ''):

    realurl = "%s%s%s" %(url,offset,'.shtml')

    print realurl

    resp = urllib2.urlopen(realurl)

    content = resp.read()

    #print content

    p = re.compile('<[^>]+>')

    p1=re.compile('<[^>p]+>')

    print p

    rematch = re.compile(r'(<h1.*</h1>)')

    h1 = rematch.findall(content)

    print h1[0],'ok'

    try:

        h1content = p.sub("",h1[0])

        print h1content

    except Exception,e:

        print str(e),'error'

        return

    fp = open(r'juyudao.txt','a')

    fp.write(h1content+ '\n')

    fp.flush()

    #print content

    content = content.replace('\r','')

    content = content.replace('\n','')

    content = content.replace(' ','')

    content = content.replace('     ','')

    cont = re.search('articleBody(.*)class="pages">', content, re.S)#先获取一部分html

    #print 'cont1',cont.group()

    cont1=cont.group()

    articleBody=re.findall('</script>(.*)<divclass="pages">',cont1)

    #print articleBody

    articleBody=articleBody[0].replace('</p>','')

    articleBody=p1.sub('',articleBody)

    txt=articleBody.split('<p>')

    for i in txt:

        fp.write(i+ '\n')

        fp.flush()

    fp.close()

def getBook(url, startoffset, endOffset):

    while startoffset < endOffset:

        getPage(url, offset = str(startoffset))

        startoffset += 1

if __name__ == '__main__':

    getPage(url = 'http://book.sohu.com/20131107/n389762800',offset='')

    getBook(url = 'http://book.sohu.com/20131107/n389762800_',startoffset=1,endOffset=20)

python 爬虫-sohu抓小说的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫之抓取小说(逆天邪神)
2022-03-06 23:05:11 申明:自我娱乐,对自我学习过程的总结. 正文: 环境: 系统:win10, python版本:python3.10.2, 工具:pycharm. 项目目标: 实 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫——论抓包的正确姿势和学好Javascript的重要性（1）
没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御, ...

随机推荐

性能测试脚本新玩法---fiddler&&Jmeter
飞测说:最近接触移动项目,测试app,需要做移动app的性能测试,想通过代理来录制,但是jmeter的代理录制效果真心不是很好,自己一个个请求来写代码,太浪时间了,那么有没有其他的办法呢? 我们都知道 ...
转载收藏- (TTL与CMOS)电路常识性概念
原帖:http://blog.sina.com.cn/s/blog_48c0c0190101bbth.html
Android开发-API指南-<application>
<application> 英文原文:http://developer.android.com/guide/topics/manifest/application-element.html ...
Kafka Quick Start
1.Download > tar -xzf kafka_2.11-0.10.0.0.tgz> cd kafka_2.11-0.10.0.0 2.启动zookeeper服务 Kafka使用的 ...
ICE学习——异步1
ICE的AMI和AMD: AMI:指的是客户端的调用.一般有一个代理类,一个回调类. 从服务端返回的数据在回调类中的ice_response函数中. AMD:指的是服务端对客户端的调用分派.一般进行业 ...
Oracle密码过期the password has expired
oracle11G新特征,半年会提醒一次修改新密码正常情况:只要输入原先帐号密码,回车即可. 不正常情况:输入新密码帐号,回车,提示验证错误,这时就需要切换到没过期的管理员用户,高权限也行,输入 ...
静态链表 C语言描述
静态链表1.下标为0的游标存放最后存放数据节点的游标,即是第一个没有存放元素(备用链表)的下标2.最后一个的节点存放第一个由数值得下标3.第一个和最后一个都不存放数据即是备用链表的第一个的下标 4. ...
No.013 Roman to Integer
13. Roman to Integer Total Accepted: 95998 Total Submissions: 234087 Difficulty: Easy Given a roman ...
oracle 将查询到的数据插入表
1. 新增一个表,通过另一个表的结构和数据 create table tab1 as select * from tab2 2. 如果表存在: insert into tab1 select * fr ...
HTTP Status 500 - javax.servlet.ServletException
运行某个jsp页面时提示 type Exception report message javax.servlet.ServletException: java.lang.NoClassDefFound ...

python 爬虫-sohu抓小说

python 爬虫-sohu抓小说的更多相关文章

随机推荐

热门专题