【python】抄写大神的百度贴吧代码

划重点：

　　1.提取帖子内容时，对图片，贴吧自动增加的超链接，制表符，换行符要做删除或替换处理

　　2.decode是把bytes转换为str, encode是把str转换为bytes 原帖中的代码第100行多了一个encode,导致出错

　　3.代码中用到了文件相关操作

　　4.原文中获取标题的正则表达式我觉得不太对，做了修改。原文只是提取了<h1></h1>直接的，但实际上有在<h3></h3>直接的

最终代码如下，在python3.4.3中实现

import urllib.request

import urllib.parse

import re

#处理页面标签类

class Tool:

    #去除img标签，7位长空格

    removeImg = re.compile('<img.*?>| {7}')

    #删除超链接标签

    removeAddr = re.compile('<a.*?>|</a>')

    #把换行的标签换为\n

    replaceLine = re.compile('<tr>|<div>|</div>|</p>')

    #将表格制表<td>替换为\t

    replaceTD = re.compile('<td>')

    #把段落开头换为\n加空两格

    replacePara = re.compile('<p.*?>')

    #将换行符或双换行符替换为\n

    replaceBR = re.compile('<br><br>|<br>')

    #将其余标签剔除

    removeExtraTag = re.compile('<.*?>')

    def replace(self, x):

        x = re.sub(self.removeImg, "", x)

        x = re.sub(self.removeAddr, "", x)

        x = re.sub(self.replaceLine, "\n", x)

        x = re.sub(self.replaceTD, "\t", x)

        x = re.sub(self.replacePara, "\n    ", x)

        x = re.sub(self.replaceBR, "\n", x)

        x = re.sub(self.removeExtraTag, "", x)

        return x.strip()

#百度贴吧爬虫类

class BDTB:

    #初始化，传入基地址，是否只看楼主的参数

    def __init__(self, baseUrl, seeLZ,floorTag):

        self.baseURL = baseUrl

        self.seeLZ = '?see_lz='+str(seeLZ)

        self.tool = Tool()

        self.file = None

        self.floor = 1

        self.defaultTitle = u"百度贴吧"

        self.floorTag = floorTag

    #传入页码，获取该页帖子的代码

    def getPage(self, pageNum):

        try:

            url = self.baseURL+self.seeLZ+'&pn='+str(pageNum)

            request = urllib.request.Request(url)

            response = urllib.request.urlopen(request)

            return response.read().decode('utf-8','ignore') #注意转换成字符串

        except urllib.error.URLError as e:

            if hasattr(e, "reason"):

                print(u"连接百度贴吧失败，错误原因：", e.reason)

                return None

    #获取帖子标题

    def getTitle(self):

        pageCode = self.getPage(1)

        pattern = re.compile('''<h\d class="core_title_txt.*?title="(.*?)" style="width:.*?</h\d>''', re.S)

        result = re.search(pattern, pageCode)

        if result:

            title = result.group(1).strip() #这里注意，获取分组的方法

            return title

        else:

            return None

    #提取帖子页数

    def getPageNum(self):

        pageCode = self.getPage(1)

        pattern = re.compile('''<span class=.*?</span>.*?回复贴，共.*?<span class=.*?>(.*?)</span>''', re.S)

        result = re.search(pattern, pageCode)

        if result:

            pageNum = result.group(1).strip()

            return pageNum

        else:

            return None

    #获取每一层楼的内容，传入页面内容

    def getContent(self, page):

        pattern = re.compile('<div id="post_content_.*?>(.*?)</div>',re.S)

        items = re.findall(pattern, page)

        contents = []

        for item in items:

            content = "\n"+self.tool.replace(item)+"\n"

            contents.append(content)

        return contents

    def setFileTitle(self, title):

        if title is not None:

            self.file = open(title+".txt","w+")

        else:

            self.file = open(self.defaultTitle+".txt","w+")

    def writeData(self, contents):

        #向文件写入每一楼的信息

        for item in contents:

            if self.floorTag == '':

                #楼之间的分隔符

                floorLine = "\n" + str(self.floor) + "楼-------------------------------------"

                self.file.write(floorLine)

            self.file.write(item)

            self.floor+=1

    def start(self):

        pageNum = self.getPageNum()

        title = self.getTitle()

        self.setFileTitle(title)

        if pageNum == None:

            print(u"URL已失效，请重试")

            return

        try:

            print("该帖子共有" + str(pageNum) + "页")

            for i in range(1, int(pageNum) + 1):

                print("正在写入第"+str(i)+"页数据")

                page = self.getPage(i)

                contents = self.getContent(page)

                self.writeData(contents)

        #出现写入异常

        except IOError as e:

            print("写入异常，原因"+e.message)

        finally:

            print("写入任务完成")

print(u"请输入帖子代号")

baseURL = 'http://tieba.baidu.com/p/' + str(input(u'http://tieba.baidu.com/p/'))

seeLZ = input("是否只看楼主发言，是输入1，否输入0\n")

floorTag = input("是否写入楼层信息，是输入1，否输入0\n")

bdtb = BDTB(baseURL, seeLZ, floorTag)

bdtb.start()

【python】抄写大神的百度贴吧代码的更多相关文章

【python】抄写大神的糗事百科代码
照着静觅大神的博客学习,原文在这:http://cuiqingcai.com/990.html 划重点: 1. str.strip() strip函数会把字符串的前后多余的空白字符去掉 2. resp ...
厉害了，Google大神每天写多少行代码？
文章转自开源中国社区,编译自:Quora Quora上有个有趣的问题:Google工程师们每天写多少行代码? Google 的 AdMob 全栈工程师 Raymond Farias 在 Quora 发 ...
90%的人说Python程序慢，5大神招让你的代码像赛车一样跑起来
1.for 循环我们大部分的时候代码里面都有for循环,然后里面嵌套一段逻辑处理,下面有两种方法来完成: 二者的性能差距有多大呢,一般我们用内置的timeit模块来量化比较: 把传统的for改成推导 ...
Python：大神用的贼溜的实用技巧分享
整理字符串输入整理用户输入的问题在编程过程中极为常见.通常情况下,将字符转换为小写或大写就够了,有时你可以使用正则表达式模块「Regex」完成这项工作.但是如果问题很复杂,可能有更好的方法来解决: ...
[python] 求大神解释下面向对象中方法和属性
面向对象中类方法实例方法类属性实例属性该如何理解呢?
“使用多target来构建大量相似App”，唐巧大神理论验证（附工程代码地址）
无意间看到巧神的文章时,感觉非常兴奋,此文章正好解决了公司目前项目的痛点. 读到以下关键一段时,不甚明了,故自己做了实验分享给有缘人. "我们的每个课程的资源文件都具有相同的文件名,例如首页 ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
VsCode写Python代码！这代码简直和大神一样规范！太漂亮了！
VsCode写Python代码!这代码简直和大神一样规范!太漂亮了! 转 https://www.jianshu.com/p/636306763d89 VsCode虽然没有Pycharm的功能齐 ...
python从入门到大神---Python的jieba模块简介
python从入门到大神---Python的jieba模块简介一.总结一句话总结: jieba包是分词技术,也就是将一句话分成多个词,有多种分词模型可选 1.分词模块包一般有哪些分词模式(比如py ...

随机推荐

学习bash——管道命令
摘要:管道命令概述.常见管道命令的使用(cut/grep.sort/wc/uniq.tee.tr/col/join/paste/expand.xargs.减号-) 一.概述命令执行完会在屏幕上打印相 ...
java script 学习
用JavaScript输出文本 <p>我的第一个段落.</p> <script> document.write(Date()); </script> & ...
laravel 学习随笔（一）
1.路由参数:路由参数总是通过花括号进行包裹,参数在路由被执行时会被传递到路由的闭包.(路由参数不能包含“-”字符,如有需要可以用“_”代替):
查看ClassLoader载入了哪些类？
在执行jar时加上-verbose:class java -verbose:class -Xms1G -Xmx2G -jar xx.jar 必要时还可以使用 >log.txt 将输出输入到文本 ...
C++陷阱系列：让面试官倒掉的题
http://blog.chinaunix.net/uid-22754909-id-3969535.html 今天和几位同仁一起探讨了一下C++的一些基础知识,在座的同仁都是行家了,有的多次当过C++ ...
B - 整数区间
B - 整数区间 Time Limit: 1000/1000MS (C++/Others) Memory Limit: 65536/65536KB (C++/Others) Problem Descr ...
Promise使用手册
导读 Promise问世已久, 其科普类文章亦不计其数. 遂本篇初衷不为科普, 只为能够温故而知新. 比如说, catch能捕获所有的错误吗? 为什么有些时候会抛出"Uncaught (in ...
JSP表单提交出现中文乱码的解决方法
1)post方式在servlet的doGet( ) doPost( ) 中增加以下代码: response.setContentType("text/html;charset=utf- ...
[CF1065C]Make It Equal
题目大意:$n$列箱子,横向消除,一次可以把一行及以上的所有箱子消除,但是一次最多只可以消除$k$个,求最少用几次把箱子的高度变成一样题解:贪心,求出比一个高度高的有几个箱子,消除即可卡点:代码改 ...
[洛谷P4238]【模板】多项式求逆
题目大意:多项式求逆题解:$ A^{-1}(x) = (2 - B(x) * A(x)) \times B(x) \pmod{x^n} $ ($B(x)$ 为$A(x)$在$x^{\lceil \d ...

【python】抄写大神的百度贴吧代码

【python】抄写大神的百度贴吧代码的更多相关文章

随机推荐

热门专题