第一个Python小爬虫

这个爬虫是参考http://python.jobbole.com/81353/这篇文章写的

这篇文章可能年代过于久远，所以有些代码会报错，然后我自己稍微修改了一下，增加了一个getContentAll的方法

 # -*- coding:utf-8 -*-

 __author__ = 'HK'

 import urllib

 import urllib2

 import re

 class Tool:

     #去除img标签,7位长空格

     removeImg = re.compile('<img.*?>| {7}|')

     #删除超链接标签

     removeAddr = re.compile('<a.*?>|</a>')

     #把换行的标签换为\n

     replaceLine = re.compile('<tr>|<div>|</div>|</p>')

     #将表格制表<td>替换为\t

     replaceTD= re.compile('<td>')

     #把段落开头换为\n加空两格

     replacePara = re.compile('<p.*?>')

     #将换行符或双换行符替换为\n

     replaceBR = re.compile('<br><br>|<br>')

     #将其余标签剔除

     removeExtraTag = re.compile('<.*?>')

     def replace(self,x):

         x = re.sub(self.removeImg,"",x)

         x = re.sub(self.removeAddr,"",x)

         x = re.sub(self.replaceLine,"\n",x)

         x = re.sub(self.replaceTD,"\t",x)

         x = re.sub(self.replacePara,"\n    ",x)

         x = re.sub(self.replaceBR,"\n",x)

         x = re.sub(self.removeExtraTag,"",x)

         #strip()将前后多余内容删除

         return x.strip()

 class BDTB:

     #initalizing,get the base url,and set parments is only see up

     def __init__(self, baseURL, seeup):

         self.baseURL = baseURL

         self.seeup = str(seeup)

         #self.user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

         #self.referer = 'http://tieba.baidu.com/p/4899608185?see_lz=1&pn=1'

         #self.Host = 'tieba.baidu.com'

     #iput the index, get the pageindex current post

     def getPage(self, pageNum):

         try:

             #header = {'User-Agent': self.user_agent, 'Host': self.Host, 'Referer': self.referer}

             url = self.baseURL + '?' + 'pn=' + str(pageNum)

             print url

             request = urllib2.Request(url)

             response = urllib2.urlopen(request)

             content = response.read()

             return content

         except urllib2.URLError, e:

             if hasattr(e, "reason"):

                 print u'链接百度贴吧失败，错误原因', e.reason

                 return None

     def getTitel(self):

         page = self.getPage(1)

         pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>', re.S)

         result = re.search(pattern, page)

         if result:

             print result.group(1).strip()

         else:

             print 'there is no content catch the re'

             return None

     def getContent(self, pageIndex):

         pattern = re.compile('<div id="post_content_.*?>(.*?)</div>', re.S)

         items = re.findall(pattern, self.getPage(pageIndex))

         tool = Tool()

         txt = ""

         for item in items:

             txt += '\t' + tool.replace(str(item)) + '\r\n'

         return txt

     def getPageNum(self):

         pattern = re.compile('<li class="l_reply_num.*?</span>.*?<span.*?>(.*?)</span>',re.S)

         result = re.search(pattern, bdtb.getPage(1))

         if result:

             return result.group(1).strip()

         else:

             return None

     def getContentAll(self):

         pageMax = self.getPageNum()

         txtlog = open('txtContent.txt', 'wb+')

         txtlog.seek(0)

         for index in range(1, int(pageMax)+1):

             txtlog.write(str(index) + self.getContent(index))

             txtlog.flush()

         txtlog.close()

         print 'Over'

 baseURL = 'http://tieba.baidu.com/p/4899608185'

 bdtb = BDTB(baseURL, 1)

 bdtb.getTitel()

 print bdtb.getPageNum()

 bdtb.getContentAll()

直接行就能看到结果

第一个Python小爬虫的更多相关文章

一个python小爬虫
自定义获取豆瓣网电影TOP250里的排名数量主要思路:先由requests库获取html基本信息,然后用BeautifulSoup来进行html.parser格式解析,逐个获取Tag属性,并且对内容 ...
用Python 3写的一个Spider小爬虫(使用内置urllib模块and正则表达式)
用Python写了一个Spider小爬虫,爬一爬斗鱼“王者荣耀”在线直播的主播及人气
Day1：第一个python小程序
Day1:第一个python小程序与开发工具Pycharm 一.Hello World C:\Users\wenxh>python Python 3.6.2 (v3.6.2:5fd33b5, J ...
第一个python小脚本
第一个python小实验前言作为一个工作1年的linux运维搬砖师来说,发现没点开发能力真的是不好混啊.于是下定决心学习python! 直接上刚写的语句(大神莫鄙视) 通过控制台输入一个账号密码, ...
【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...
python小爬虫练手
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧. 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/ ...
Python 小爬虫流程总结
接触Python3一个月了,在此分享一下知识点,也算是温故而知新了. 接触python之前是做前端的.一直希望接触面能深一点.因工作需求开始学python,几乎做的都是爬虫..第一个demo就是爬取X ...
Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...
发布一个Python小程序：ManHourCalendar
程序诞生的那些事儿先聊聊背景资料档案.. 大约两年前,我只身前往岛国赚点外快.在那边的派遣制度工作中,存在一个大约叫每月的标准工作时间的概念,按照自家公司跟派遣目标公司(业界称为现场)的合同,规定了 ...

随机推荐

用GDB调试程序（七）
改变程序的执行——————— 一旦使用GDB挂上被调试程序,当程序运行起来后,你可以根据自己的调试思路来动态地在GDB中更改当前被调试程序的运行线路或是其变量的值,这个强大的功能能够让你更好的调试你的 ...
JS高级-ES6
let/const case1 { //js var a = 10 a = 20 // es6 let b = 10 b = 30 const c = 10 c = 40 //报错 } case2 { ...
react购物车
import React, { Component } from 'react'; import {Tabs} from './Tabs' import 'whatwg-fetch' im ...
多端统一框架尝试--Taro
参考资料 Taro官网Taro GitHubTaro资源汇总Taro-UI 我的demo代码 github地址 Taro介绍和尝试心得 Taro是基于React语法规范开发的多端统一的框架,一套代码可 ...
性能测试Jmeter扩展学习-添加自定义函数
我们在使用jmeter的时候有时候会碰到jmeter现有插件或功能也无法支持的场景,比如前端加密,此时我们就需要自己手动编写函数并导入了,下面就是手动修改并导入的过程. 首先我们需要下载jmeter源 ...
ssh服务器配置
使用如下终端命令可以在 Linux 主机中安装 ssh服务器sudo apt-get install openssh-server lin@lin-machine:~$ sudo apt-get in ...
MySQL索引原理及优化
一.各种数据结构介绍这一小节结合哈希表.完全平衡二叉树.B树以及B+树的优缺点来介绍为什么选择B+树. 假如有这么一张表(表名:sanguo): (1)Hash索引对name字段建立哈希索引: 根 ...
English-商务英文邮件例句100句
最常用最专业的商务英文邮件例句100句——塞依SAP培训字体大小:大 | 中 | 小2013-08-27 17:24 阅读(74) 评论(0) 分类:sap职场 1. I am writing t ...
《DOM Scripting》学习笔记-——第二章 js语法
<Dom Scripting>学习笔记第二章 Javascript语法本章内容: 1.语句. 2.变量和数组. 3.运算符. 4.条件语句和循环语句. 5.函数和对象. 语句(stat ...
微信小程序--getLocation需要在app.json中声明permission字段
在微信小程序开发中,需要获取用户所在地理位置,结果提示‘getLocation需要在app.json中声明permission字段’ 这是因为开发者需要填写获取用户地理位置的用途说明. 具体解决方法: ...

第一个Python小爬虫

第一个Python小爬虫的更多相关文章

随机推荐

热门专题