假装会python--爬取贴吧正文

贴吧的老历史想存下来,强行python爬取一波

队友太强,躺好别动,偶尔做点副业

假装会python

基本流程:

1.爬取页面，获取页面的html源码

2.分析源码通过正则表达式匹配到想要的内容

3.去掉不需要的

python中 re模块提供对正则表达式的支持

 # -*- coding:utf-8 -*-

 import urllib2

 import  urllib

 import  re

 class Tool:

     #去除img标签,7位长空格

     removeImg = re.compile('<img.*?>| {7}|')

     #删除超链接标签

     removeAddr = re.compile('<a.*?>|</a>')

     #把换行的标签换为\n

     replaceLine = re.compile('<tr>|<div>|</div>|</p>')

     #将表格制表<td>替换为\t

     replaceTD= re.compile('<td>')

     #把段落开头换为\n加空两格

     replacePara = re.compile('<p.*?>')

     #将换行符或双换行符替换为\n

     replaceBR = re.compile('<br><br>|<br>')

     #将其余标签剔除

     removeExtraTag = re.compile('<.*?>')

     def replace(self,x):

         x = re.sub(self.removeImg,"",x)

         x = re.sub(self.removeAddr,"",x)

         x = re.sub(self.replaceLine,"\n",x)

         x = re.sub(self.replaceTD,"\t",x)

         x = re.sub(self.replacePara,"\n    ",x)

         x = re.sub(self.replaceBR,"\n",x)

         x = re.sub(self.removeExtraTag,"",x)

         #strip()将前后多余内容删除

         return x.strip()

 class BDTB:

     def __init__(self,baseUrl,seeLZ):

         self.baseURL =baseUrl

         self.seeLZ ='?see_lz'+str(seeLZ)

         self.tool=Tool()

     def getPage(self,pageNum):#抓取网页 第几页

         try:

             url=self.baseURL+self.seeLZ+'&pn='+str(pageNum)

             request = urllib2.Request(url)

             response =urllib2.urlopen(request)

             #print  response.read()

             return response.read().decode('utf-8')

         except urllib2.URLError,e:

             if hasattr(e,"reason"):

                 print u"fail",e.reason

                 return None

     def getTitle(self):#获取标题

         page =self.getPage(1)

         pattern = re.compile('<h3 class="core_title_txt.*?>(.*?)</h3>',re.S)

         result =re.search(pattern,page)

         #print result

         if result:

             print result.group(1)

             return result.group(1).strip()

         else :

             return None

     def getContent(self):#获取正文

         page=self.getPage(1)

         pattern =re.compile('<div id="post_content_.*?>(.*?)</div>',re.S)

         items =re.findall(pattern,page)

         for i in range(1,20):#前19个

             print self.tool.replace(items[i])

 baseURL = 'http://tieba.baidu.com/p/5285925491'#任意一个网页的url

 bdtb=BDTB(baseURL,1)

 #bdtb.getTitle()

 bdtb.getContent()

假装会python--爬取贴吧正文的更多相关文章

Python爬取视频指南
摘自:https://www.jianshu.com/p/9ca86becd86d 前言前两天尔羽说让我爬一下菜鸟窝的教程视频,这次就跟大家来说说Python爬取视频的经验正文 https://w ...
用Python爬取网易云音乐热评
用Python爬取网易云音乐热评本文旨在记录Python爬虫实例:网易云热评下载由于是从零开始,本文内容借鉴于各种网络资源,如有侵权请告知作者. 要看懂本文,需要具备一点点网络相关知识.不过没有关 ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python:爬取乌云厂商列表，使用BeautifulSoup解析
在SSS论坛看到有人写的Python爬取乌云厂商,想练一下手,就照着重新写了一遍原帖:http://bbs.sssie.com/thread-965-1-1.html #coding:utf- im ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
python爬取免费优质IP归属地查询接口
python爬取免费优质IP归属地查询接口具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就o ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...

随机推荐

【Qt】QLabel实现的圆形图像
本篇只描述圆形图像的两种实现方式,动态阴影边框如下: [Qt]QLabel之动态阴影边框目前实现的效果如下: 左右两边实现的方式不同: 右边比较简单 min-width: 100px; max-wi ...
【LG1368】工艺
[LG1368]工艺题面洛谷题解好套路的一道题... 我们倍长这个字符串,然后我们要查询的串就为这个倍长过后串的长度\(n\)一个子串,要求字典序最小然后就可以非常愉快地后缀排序了后缀的话 ...
CodeForces 1073F Choosing Two Paths
Description You are given an undirected unweighted tree consisting of \(n\) vertices. An undirected ...
HTML基础之CSS
CSS选择器 1.id选择器 2.class选择器 3.标签选择器 4.层级选择器(空格) 5.组合选择器(逗号) 6.属性选择器(中括号) <!DOCTYPE html> <htm ...
微信小程序之地理位置授权 wx.getLocation
1. 授权地理位置点击按钮,弹出授权弹窗,点击允许后,在以后的操作中可以随时获取到用户地理位置点击拒绝后,将无法获取到地理位置,也无法再次点击弹出弹窗. <button bindtap='o ...
ES6 之reduce的高级技巧
reduce() 方法接收一个函数作为累加器,数组中的每个值(从左到右)开始缩减,最终计算为一个值.reduce() 方法接受四个参数:初始值(或者上一次回调函数的返回值),当前元素值,当前索引,调用 ...
[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project spark-tags_2.11: Execution scala-compile-first of goal net.alchim31.maven:scala-mave
build/mvn -Pkubernetes -Phadoop-2.7 -Dhadoop.version=2.7.3 -Phive -Phive-thriftserver -DskipTests cl ...
小白之selenium+python关于cookies绕开登录2
首先,由于新开始在博客园中写随笔,可能在内容的布局方面就不太懂,导致布局很丑,各位见谅,但是字还是原来的那字,内容还是原来的内容,少了点包装, 下面是对cookie的扩展知识 1.配置文件存储在哪里? ...
[T-ARA][Ma boo]
歌词来源:http://music.163.com/#/song?id=22704447 作曲 : 金道勋/Rhymer [作曲 : 金道勋/Rhymer] 作词 : 金道勋 [作词 : 金道勋] 사 ...
蓝牙BLE实用教程（转载）
欢迎使用小书匠(xiaoshujiang)编辑器,您可以通过设置里的修改模板来改变新建文章的内容. 1.蓝牙BLE常见问答 Q: Smart Ready 和 Smart 以及传统蓝牙之间是什么关 ...

假装会python--爬取贴吧正文

假装会python--爬取贴吧正文的更多相关文章

随机推荐

热门专题