python实现百度贴吧页面爬取

import requests

class TiebaSpider:

    """百度贴吧爬虫类"""

    def __init__(self, tieba_name) -> None:

        self.tieba_name = tieba_name

        self.url_temp = "https://tieba.baidu.com/f?kw="+tieba_name+"ie=utf-8&pn={}"

        # 请求头部

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36"}

    def get_url_list(self) -> list:

        """构造一个url列表，将所有url_temp添加到列表中,并返回列表"""

        url_list = []

        for i in range(10):

            url_list.append(self.url_temp.format(i*50))

        return url_list

        # return [self.url_temp.format(i*50) for i in range(10)]

    def parse_url(self, url) -> str:

        """

        发送请求获取响应

        url:get_url_list方法中返回列表中的url元素

        """

        print(url)  # 打印爬取的当前url

        # 发送请求

        response = requests.get(url, headers=self.headers)

        # 返回解码后的字符串

        return response.content.decode()

    def seve_html(self, html_str, page_num):

        """保存html字符串"""

        # 保存文件名

        file_path = "{}吧_第{}页.html".format(self.tieba_name, page_num)

        with open(file_path, "w", encoding="utf-8") as f:

            f.write(html_str)

    def run(self):

        """主逻辑方法"""

        # 1.将get_url_list方法返回的列表重新赋值给url_list

        url_list = self.get_url_list()

        # 2.遍历，发送请求，获取响应

        for url in url_list:

            # 将parse_url返回的字符串赋值给html_str变量

            html_str = self.parse_url(url)

            # 3.保存

            # 将列表的索引赋值给page_num

            page_num = url_list.index(url) + 1  # 页码

            # 调用seve_html方法，储存html_str

            self.seve_html(html_str, page_num)

if __name__ == "__main__":

    t = TiebaSpider("李毅")

思维导图

python实现百度贴吧页面爬取的更多相关文章

python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
使用requests简单的页面爬取
首先安装requests库和准备User Agent 安装requests直接使用pip安装即可 pip install requests 准备User Agent,直接在百度搜索"UA查询 ...
【BOOK】动态渲染页面爬取--Selenium库
动态渲染页面爬取 JavaScript动态渲染其中一种方式是Ajax请求,通过直接分析Ajax再用requests来实现数据爬取另外一种方式是模拟浏览器运行一. Selenium库 Seleni ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...

随机推荐

wireshark 显示过滤表达式
转载请注明出处: 1.根据协议过滤: 在显示过滤表达式的输入框中直接输入对应的协议类型即可:http tcp udp 2.根据 IP 过滤: 根据源IP地址过滤:如源地址IP为:127.0.0. ...
01-Linux命令和C语言基础
1 Linux开发环境搭建 1.1 虚拟机安装 1.安装VM Ware 2.安装ubuntu 分区 -- Linux没有盘符的概念 / -- 5000M /boot -- 系统启动过程中读取的重要文件 ...
【rt-thread】Kconfig文件添加子Kconfig文件时是以顶级Kconfig所在目录为当前路径的
示例如下顶级Kconfig文件所在目录子级Kconfig文件所在目录子级Kconfig文件添加次子级Kconfig文件,以顶级目录为当前路径依次写出次子级Kconfig文件所在目录
[java] JSP post 提交乱码解决方案
//在post提交的页面顶部插入下列代码 <% request.setCharacterEncoding("UTF-8"); %>
软考下午科目——第三章——UML分析与设计
UML分析与设计大纲要求: 学会面向对象的分析与设计,掌握UML描述方法 UML基础知识面向对象的分析与设计面向对象方法是一种运用对象.类.继承.封装.聚合.关联.消息.多态性等概念来构造系统的 ...
[转帖]7.5 TiKV 磁盘空间占用与回收常见问题
https://book.tidb.io/session4/chapter7/compact.html TiKV 作为 TiDB 的存储节点,用户通过 SQL 导入或更改的所有数据都存储在 TiKV. ...
[转帖]煮饺子与 docker、kubernetes 之间的关系
前言:云原生的概念最近非常火爆,企业落地云原生的愿望也越发强烈.看过很多关于云原生的文章,要么云山雾罩,要么曲高和寡. 所以笔者就有了写<大话云原生>系列文章的想法,期望用最通俗.简单 ...
Chrome 历史版本下载点
https://www.chromedownloads.net/chrome64win-stable/
pytest-xdist分布式
使用pytest框架运行每条case的时候,都是上一条运行结束才会运行下一条,要是有成千上百条case 且每条运行2s那就是2*总条数,会浪费大量的时间和人力.为了节约时间和人力成本,pytest提供 ...
TypeScript数组类型定义
第一种方式:可以在元素类型后面接上 [],表示由此类型元素组成的一个数组: var arr: number[] = [1, 2, 3]; //数字类型的数组 var arr2: string[] = ...

python实现百度贴吧页面爬取

思维导图

python实现百度贴吧页面爬取的更多相关文章

随机推荐

热门专题