Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包

之后我们定义一个名叫BaiduSpider类用来爬取信息

属性有 url:用来爬取的网址 headers:请求头

class BaiduSpider(object):

    def __init__(self):

        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'

        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

之后我们定义三个方法不涉及清洗数据

获取页面

 #获取页面

     def get_page(self,url):

         #定义请求对象

         req = request.Request(url=url,headers=self.headers)

         #发起请求

         res = request.urlopen(req)

         #获取相应对象

         html = res.read().decode('utf-8', 'ignore')

         return html

保存数据

#保存数据

    def write_page(self,filename,html):

        #将数据保存到本地

        with open(filename,'w',encoding='utf-8') as f:

            f.write(html)

主函数

#主函数

    def main(self):

        name = input('请输入贴吧名:>>>>')

        start = int(input('请输入起始页'))

        end = int(input('请输入终止页'))

        for page in range(start,end+1):

            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'

            #进行编码 将中文字符编码为url地址编码

            kw = parse.quote(name)

            #获取当前页数

            pn = (page-1)*50

            #进行url地址的拼接

            url = self.url.format(kw,pn)

            #获取相应

            html = self.get_page(url)

            filename = '{}-第{}页.html'.format(name,page)

            self.write_page(filename,html)

            #提示

            print('第{}页爬取成功'.format(page))

            #控制爬取速度

            time.sleep(random.randint(1,3))

最后所有的代码展示如下

#导入模块

from urllib import request,parse

import time

import random

class BaiduSpider(object):

    def __init__(self):

        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'

        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

    #获取页面

    def get_page(self,url):

        #定义请求对象

        req = request.Request(url=url,headers=self.headers)

        #发起请求

        res = request.urlopen(req)

        #获取相应对象

        html = res.read().decode('utf-8', 'ignore')

        return html

    #解析数据

    def parse_page(self):

        pass

    #保存数据

    def write_page(self,filename,html):

        #将数据保存到本地

        with open(filename,'w',encoding='utf-8') as f:

            f.write(html)

    #主函数

    def main(self):

        name = input('请输入贴吧名:>>>>')

        start = int(input('请输入起始页'))

        end = int(input('请输入终止页'))

        for page in range(start,end+1):

            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'

            #进行编码 将中文字符编码为url地址编码

            kw = parse.quote(name)

            #获取当前页数

            pn = (page-1)*50

            #进行url地址的拼接

            url = self.url.format(kw,pn)

            #获取相应

            html = self.get_page(url)

            filename = '{}-第{}页.html'.format(name,page)

            self.write_page(filename,html)

            #提示

            print('第{}页爬取成功'.format(page))

            #控制爬取速度

            time.sleep(random.randint(1,3))

if __name__ == '__main__':

    spider = BaiduSpider()

    spider.main()

一个非常非常简单的爬虫就完成了让我们看一下运行效果截图:

html文件打开后与我们正常打开的网页并没有太大的差别

Python爬虫之简单的爬取百度贴吧数据的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python爬虫：通过关键字爬取百度图片
使用工具:Python2.7 点我下载 scrapy框架 sublime text3 一.搭建python(Windows版本) 1.安装python2.7 ---然后在cmd当中输入python,界 ...
Python 基础语法+简单地爬取百度贴吧内容
Python笔记 1.Python3和Pycharm2018的安装 2.Python3基础语法 2.1.1.数据类型 2.1.1.1.数据类型:数字(整数和浮点数) 整数:int类型浮点数:floa ...
Python爬虫入门教程 42-100 爬取儿歌多多APP数据-手机APP爬虫部分
1. 儿歌多多APP简单分析今天是手机APP数据爬取的第一篇案例博客,我找到了一个儿歌多多APP,没有加固,没有加壳,没有加密参数,对新手来说,比较友好,咱就拿它练练手,熟悉一下Fiddler和夜神 ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
python爬虫:了解JS加密爬取网易云音乐
python爬虫:了解JS加密爬取网易云音乐前言大家好,我是"持之以恒_liu",之所以起这个名字,就是希望我自己无论做什么事,只要一开始选择了,那么就要坚持到底,不管结果如何 ...

随机推荐

TensorFlow使用记录 (一）：基本概念
基本使用使用graph来表示计算任务在被称之为Session的上下文中执行graph 使用tensor表示数据通过Variable维护状态使用feed和fetch可以为任意的操作(op)赋值或 ...
Fastdfs 单机安装教程
分布式存储 CentOS6.5虚拟机环境搭建FastDFS-5.0.5集群详细的最新版fastdfs单机版搭建分布式文件系统 - FastDFS 在64位CentOS 下配置安装部署
R_Studio中对xls文件学生总成绩统计求和
我们发现这张xls表格是没有学生总分的,在xls文件中计算学生总分嫌麻烦时,可以考虑在R Studio中自定义R Script脚本来解决实际问题(计算每个学生的总成绩) .xls数据表中的数据(关键信 ...
JS框架_(JQuery.js)纯css3进度条动画
百度云盘传送门密码:wirc 进度条动画效果: <!DOCTYPE html> <html lang="zh"> <head> <me ...
easyui tree 点击state=closed节点,每次重新加载数据
http://blog.csdn.net/lovejavaloveworld/article/details/30052305 树控件读取URL.子节点的加载依赖于父节点的状态.当展开一个封闭的节点, ...
国内著名的vue-element-admin-layout框架的使用
vue-element-admin-layout 是一个后台前端解决方案,它基于 vue 和 element-ui实现.它使用了最新的前端技术栈,内置了 i18 国际化解决方案,动态路由,权限验证,提 ...
redis在分布式中的使用
作者:孤独烟来自:http://rjzheng.cnblogs.com/ 为什么要用redis:为了并发和性能,使用redis做为缓冲使用redis有什么缺点主要是四个问题 (一)缓存和数据库双 ...
Mysql和Orcale的区别
有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求,随着应用用户的增多,数据量的增加,MYSQL渐渐地出现不堪重负的情况:连接很慢甚至宕机,于是就有把数据从MYSQL迁到ORAC ...
第七周总结&实验报告5
这一周的课程内容比较难,而且比较不容易理解,所有学习的很吃力,现在接触的知识越来越多,也越来越难了,还是要多对照书本来进行学习! 这周主要学的有: 一.抽象类 1.Java中可以创建一种类专门用来当作 ...
6、kubernetes资源清单之Pod控制器190714
一.Pod控制器的类别 ReplicationController:早期唯一的控制器,已废弃 ReplicaSet:控制Pod满足用户期望副本:标签选择器选择由自己管理的Pod副本:Pod资源模板完成 ...

Python爬虫之简单的爬取百度贴吧数据

首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包

之后我们定义三个方法 不涉及清洗数据

获取页面

保存数据

主函数

最后 所有的代码展示如下

一个非常非常简单的爬虫就完成了 让我们看一下运行效果截图:

Python爬虫之简单的爬取百度贴吧数据的更多相关文章

随机推荐

热门专题

之后我们定义三个方法不涉及清洗数据

最后所有的代码展示如下

一个非常非常简单的爬虫就完成了让我们看一下运行效果截图: