python-requests库的使用之爬取贴吧内容并保存在本地

以面向对象的程序设计方式，编写爬虫代码爬去‘李毅吧’所有页面的内容，也可以通过改变对象的参数来爬取其它贴吧页面的内容。

所用到的库为：requests

涉及知识点：python面向对象编程，字符串操作，文件操作，爬虫基本原理

程序代码如下：

import requests

class TiebaSpider:

    def __init__(self, tieba_name):

        self.tieba_name=tieba_name

        self.url_tmp='https://tieba.baidu.com/f?kw='+self.tieba_name+'&ie=utf-8&pn={}'

        self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134"}

    def get_url_list(self):  # 获取该贴吧所有的url地址并存放在列表中

        url_list=[]

        for i in range(1000):

            url_list.append(self.url_tmp.format(i+50))

        return url_list

    def parse_url(self,url):   # 解析url,获得响应的页面内容

        response=requests.get(url,headers=self.headers)

        return response.content.decode()   # 默认是utf-8解码

    def save_html(self,html_str,page_num):

        file_path='html/{}-第{}页.html'.format(self.tieba_name,page_num)

        with open(file_path,'w',encoding='utf-8') as f:  #  此处一定要加encoding=‘utf8'否则会报错，默认打开是以ASCII码方式，而解码是以utf8解码

            f.write(html_str)

    def run(self):

        url_list=self.get_url_list()

        for url in url_list:

            html_str=self.parse_url(url)

            page_num=url_list.index(url)+1

            self.save_html(html_str,page_num)

if __name__=='__main__':

    tiebaspider = TiebaSpider('李毅')

    tiebaspider.run()

爬取结果如下：

python-requests库的使用之爬取贴吧内容并保存在本地的更多相关文章

Python+Requests+Bs4（解析）爬取某诗词信息（数据分析二）
1.环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %appdata% (3)在这里面新建一个 ...
Python+Requests+Re（正则）爬取某糗事百科图片（数据分析一）
1.博客目前在学习爬虫课程,使用正则表达式来爬取网页的图片信息 2.下面我们一起来回归下Python中的正则使用方式/方法 3.糗事百科图片爬取源码如下: import requestsimport ...
Python+Requests+Xpath（解析）爬取某站点简历图片（数据分析三）
1.环境安装 pip install lxml 2.解析原理使用通用爬虫爬取网页数据实例化etree对象,且将页面数据加载到该对象中使用xpath函数结合xpath表达式进行标签定位和指定数据提 ...
用thinkphp写的一个例子：抓取网站的内容并且保存到本地
我需要写这么一个例子,到电子课本网下载一本电子书. 电子课本网的电子书,是把书的每一页当成一个图片,然后一本书就是有很多张图片,我需要批量的进行下载图片操作. 下面是代码部分: public func ...
Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
大概看了一天python request源码。写下python requests库发送 get,post请求大概过程。
python requests库发送请求时,比如get请求,大概过程. 一.发起get请求过程:调用requests.get(url,**kwargs)-->request('get', url ...
python requests库学习笔记（上）
尊重博客园原创精神,请勿转载! requests库官方使用手册地址:http://www.python-requests.org/en/master/:中文使用手册地址:http://cn.pytho ...

随机推荐

如何快速简单粗暴地理解Python中的if __name__ == '__main__'
1. 摘要通俗的理解__name__ == '__main__':假如你叫小明.py,在朋友眼中,你是小明(__name__ == '小明'):在你自己眼中,你是你自己(__name__ == '_ ...
VMWare 虚拟机挂载 Homestead NFS 进行老项目（基于 Brophp）维护
环境: Laravel/homestead + winnfsd VMWare workstation 背景: 众所周知, windows 上成功配置 Homestead 进行开发时,为了解决文件系统的 ...
Zookeeper 源码（六）Leader-Follower-Observer
Zookeeper 源码(六)Leader-Follower-Observer 上一节介绍了 Leader 选举的全过程,本节讲解一下 Leader-Follower-Observer 服务器的三种角 ...
mysql索引原理及用法
MySQL索引原理及慢查询优化 Mysql explain用法和性能分析 MySQL 索引优化全攻略 1．索引作用在索引列上,除了上面提到的有序查找之外,数据库利用各种各样的快速定位技术,能够大大提 ...
数据挖掘算法以及其实现zz
实验一分类技术及其应用实习要求: 基于线性回归模型拟合一个班学生的学习成绩,建立预测模型.数据可由自己建立100个学生的学习成绩. 1) 算法思想: 最小二乘法设经验方程是y=F(x ...
[GO]conext的使用
package main import ( "context" "time" "net/http" "fmt" &quo ...
UVa 11136 Hoax or what （STL）
题意:有 n 天,每天有m个数,开始的前一天没有数据,然后每天从这个里面拿出一个最大的和最小的,求 n 天的最大的和最小的差值相加. 析:一看就知道用set啊,多简单的STL,不过要注意,开long ...
企业搜索引擎开发之连接器connector（二十四）
本人在上文中提到,连接器实现了两种事件依赖的机制 ,其一是我们手动操作连接器实例时:其二是由连接器的自动更新机制上文中分析了连接器的自动更新机制,即定时器执行定时任务那么,如果我们手动操作连接器实 ...
java中的软引用，弱引用，虚引用
http://zh.wikipedia.org/wiki/%E5%BC%B1%E5%BC%95%E7%94%A8 有些语言包含多种强度的弱引用.例如Java,在java.lang.ref[1]包中定义 ...
MSP430 G2553 LaunchPad设置GPIO
一. 背景知识:逻辑运算符的使用当程序初始化时,对于复位状态有不确定性的寄存器(如PxOUT),建议采用直接赋值:其他情况下最好使用逻辑运算符修改寄存器. 直接赋值 REGISTER = 0b111 ...

python-requests库的使用之爬取贴吧内容并保存在本地

python-requests库的使用之爬取贴吧内容并保存在本地的更多相关文章

随机推荐

热门专题