Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包

之后我们定义一个名叫BaiduSpider类用来爬取信息

属性有 url:用来爬取的网址 headers:请求头

class BaiduSpider(object):

    def __init__(self):

        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'

        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

之后我们定义三个方法不涉及清洗数据

获取页面

 #获取页面

     def get_page(self,url):

         #定义请求对象

         req = request.Request(url=url,headers=self.headers)

         #发起请求

         res = request.urlopen(req)

         #获取相应对象

         html = res.read().decode('utf-8', 'ignore')

         return html

保存数据

#保存数据

    def write_page(self,filename,html):

        #将数据保存到本地

        with open(filename,'w',encoding='utf-8') as f:

            f.write(html)

主函数

#主函数

    def main(self):

        name = input('请输入贴吧名:>>>>')

        start = int(input('请输入起始页'))

        end = int(input('请输入终止页'))

        for page in range(start,end+1):

            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'

            #进行编码 将中文字符编码为url地址编码

            kw = parse.quote(name)

            #获取当前页数

            pn = (page-1)*50

            #进行url地址的拼接

            url = self.url.format(kw,pn)

            #获取相应

            html = self.get_page(url)

            filename = '{}-第{}页.html'.format(name,page)

            self.write_page(filename,html)

            #提示

            print('第{}页爬取成功'.format(page))

            #控制爬取速度

            time.sleep(random.randint(1,3))

最后所有的代码展示如下

#导入模块

from urllib import request,parse

import time

import random

class BaiduSpider(object):

    def __init__(self):

        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'

        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

    #获取页面

    def get_page(self,url):

        #定义请求对象

        req = request.Request(url=url,headers=self.headers)

        #发起请求

        res = request.urlopen(req)

        #获取相应对象

        html = res.read().decode('utf-8', 'ignore')

        return html

    #解析数据

    def parse_page(self):

        pass

    #保存数据

    def write_page(self,filename,html):

        #将数据保存到本地

        with open(filename,'w',encoding='utf-8') as f:

            f.write(html)

    #主函数

    def main(self):

        name = input('请输入贴吧名:>>>>')

        start = int(input('请输入起始页'))

        end = int(input('请输入终止页'))

        for page in range(start,end+1):

            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'

            #进行编码 将中文字符编码为url地址编码

            kw = parse.quote(name)

            #获取当前页数

            pn = (page-1)*50

            #进行url地址的拼接

            url = self.url.format(kw,pn)

            #获取相应

            html = self.get_page(url)

            filename = '{}-第{}页.html'.format(name,page)

            self.write_page(filename,html)

            #提示

            print('第{}页爬取成功'.format(page))

            #控制爬取速度

            time.sleep(random.randint(1,3))

if __name__ == '__main__':

    spider = BaiduSpider()

    spider.main()

一个非常非常简单的爬虫就完成了让我们看一下运行效果截图:

html文件打开后与我们正常打开的网页并没有太大的差别

Python爬虫之简单的爬取百度贴吧数据的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python爬虫：通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
Python 基础语法+简单地爬取百度贴吧内容
Python笔记 1.Python3和Pycharm2018的安装 2.Python3基础语法 2.1.1.数据类型 2.1.1.1.数据类型:数字(整数和浮点数) 整数:int类型浮点数:floa ...
Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...

随机推荐

Redis总结 C#中如何使用redis
转载自:https://www.cnblogs.com/zhangweizhong/p/4972348.html 本篇着重讲解.NET中如何使用redis和C#. Redis官网提供了很多开源的C#客 ...
css彩色（渐变）文字
css彩色文字也称渐变文字在张鑫旭博客首页看到这效果,就自己研究了一下. 实现方法加个背景然后在根据文本剪切,再把文本填充为透明色让之前设置的背景颜色显示出来即可. -webkit-backgrou ...
Hibernate与MyBaits的区别？
(1)Hibernate是全自动,而myBatis是半自动,Hibernate完全可以通过对象关系模型实现对数据库的操作,拥有完整的JavaBean对象与数据库的映射结构来自动生成SQL.而myBat ...
mongo 是什么
一.概述1.MongoDB是什么?用一句话总结MongoDB是一款为web应用程序和互联网基础设施设计的数据库管理系统.没错MongoDB就是数据库,是NoSQL类型的数据库 2.为什么要使用Mong ...
C++入门经典-例6.3-字符串之未使用字符串结束符“\0”和使用字符串结束符“\0”的区别
1:为字符串数组赋值的方式有两种,即数组元素逐一赋值和使用聚合方式赋值. 为数组元素逐一赋值.例如: pWord[0]='H'; 使用聚合方式赋值如: char pWord[]={'H','E','L ...
【转】diamond专题（一）– 简介和快速使用
特别提示:本人博客部分有参考网络其他博客,但均是本人亲手编写过并验证通过.如发现博客有错误,请及时提出以免误导其他人,谢谢!欢迎转载,但记得标明文章出处:http://www.cnblogs.com/ ...
为Windows编译libobjc2（通过交叉编译的方式）
前提:Linux系统.git.clang-8.g++-mingw-w64-x86-64.gobjc++-mingw-w64-x86-64. 一.下载源代码 git clone https://gith ...
三、Linux下mysql的完整安装
参考资料:http://www.cnblogs.com/fly1988happy/archive/2011/11/21/2257682.html http://www.cnblogs.com/xion ...
全面解读php-网络协议
一.OSI七层模型 1.物理层作用:建立,维护,断开物理连接 2.数据链路层作用:建立逻辑连接,进行硬件地址寻址,差错校验等功能. 3.网络层作用:进行逻辑地址寻址,实现不同网络之间的路径选择. ...
Boston House Price with Scikit-Learn
Boston House Price with Scikit-Learn Data Description >>> from sklearn.datasets import load ...

Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包

之后我们定义三个方法 不涉及清洗数据

获取页面

保存数据

主函数

最后 所有的代码展示如下

一个非常非常简单的爬虫就完成了 让我们看一下运行效果截图:

Python爬虫之简单的爬取百度贴吧数据的更多相关文章

随机推荐

热门专题

之后我们定义三个方法不涉及清洗数据

最后所有的代码展示如下

一个非常非常简单的爬虫就完成了让我们看一下运行效果截图: