Python爬虫【实战篇】百度贴吧爬取页面存到本地

先上代码

import requests

class TiebaSpider:

    def __init__(self, tieba_name):

        self.tieba_name = tieba_name

        self.url_temp = " https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"

        self.headers = {

            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"

        }

    def get_url_list(self):

        """构造url列表"""

        return [self.url_temp.format(i * 50) for i in range(50)]

    def parse_url(self, url):

        """发送请求 获取响应"""

        print(url)

        response = requests.get(url=url, headers=self.headers)

        return response.content

    def save_html(self, html_str, page_num):

        # 构建文件名

        file_path = "{}第{}页.html".format(self.tieba_name, page_num)

        with open(file_path, "wb") as f:

            f.write(html_str)

    def run(self):

        """实现主要逻辑"""

        url_list = self.get_url_list()

        # 遍历请求

        for url in url_list:

            html_str = self.parse_url(url=url)

            # 构建页码

            page_num = url_list.index(url) + 1

            # 创建html文件

            self.save_html(html_str, page_num)

if __name__ == '__main__':

    tieba_spider = TiebaSpider("lol")

    tieba_spider.run()

Python爬虫【实战篇】百度贴吧爬取页面存到本地的更多相关文章

Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
python爬虫实战2百度贴吧爬html
转自:http://blog.csdn.net/wxg694175346/article/details/8927832 import string, urllib2 #定义百度函数 def baid ...
Python爬虫实战（1）：爬取Drupal论坛帖子列表
1,引言在<Python即时网络爬虫项目: 内容提取器的定义>一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间.本文将用一个实例讲解怎样使用这个爬 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息
[Python爬虫] 使用 Beautiful Soup 4 快速爬取所需的网页信息 2018-07-21 23:53:02 larger5 阅读数 4123更多分类专栏: 网络爬虫版权声明: ...
Python爬虫小白入门（六）爬取披头士乐队历年专辑封面-网易云音乐
一.前言前文说过我的设计师小伙伴的设计需求,他想做一个披头士乐队历年专辑的瀑布图. 通过搜索,发现网易云音乐上有比较全的历年专辑信息加配图,图片质量还可以,虽然有大有小. 我的例子怎么都是爬取图片? ...
Python爬虫入门教程： 27270图片爬取
今天继续爬取一个网站,http://www.27270.com/ent/meinvtupian/ 这个网站具备反爬,so我们下载的代码有些地方处理的也不是很到位,大家重点学习思路,有啥建议可以在评论的 ...
Python爬虫入门教程 8-100 蜂鸟网图片爬取之三
蜂鸟网图片--啰嗦两句前几天的教程内容量都比较大,今天写一个相对简单的,爬取的还是蜂鸟,依旧采用aiohttp 希望你喜欢爬取页面https://tu.fengniao.com/15/ 本篇教程还 ...

随机推荐

JDK源码分析（3）之 ArrayList 相关
ArrayList的源码其实比较简单,所以我并没有跟着源码对照翻译,文本只是抽取了一些我觉得有意思或一些有疑惑的地方分析的. 一.成员变量 private static final int DEFAU ...
javascript入门篇（二）
对象对象:一组元素的集合声明方式:字面量方式 var O = { } 构造函数方式:var obj = new object(); 为对象添加新属性,如:o.name = 'jerry' ...
Magicodes.WeiChat——V3.0（多租户）版本发布
主要内容如下: 添加项目Magicodes.WeiChat.Data.Multitenant,全面支持多租户(基于EF已经ASP.NET Identity) 增加租户管理.租户成员管理.修改密码.公众 ...
JavaScript 基础结构
注释代码注释可以使用//或者/* */ // 这是一个单行注释 /* * 这是 * 一个 * 多行 * 注释 */ 变量变量用于存储数据,在同一作用域内变量不得重名,定义语法: ...
微信小程序组件minui在mac系统的使用注意事项
1.mac系统使用npm 安装组件的时候,一定要注意mac系统的终端一定要用root用户操作. 具体的命令如下:sudo -i,然后提示输入系统的密码就进入了root操作用户. 2.然后就根据minu ...
STM32-FreeRTOS快速学习之总结1
1. 基础知识注意:在RTOS中是优先值越高则优先级越高(和ucos/linux的相反) 在移植的时候,主要裁剪FreeRTOS/Source/portable文件夹,该文件夹用来针对不同MCU做的一 ...
Mybatis框架基础支持层——反射工具箱之实体属性Property工具集（6）
本篇主要介绍mybatis反射工具中用到的三个属性工具类:PropertyTokenizer.PropertyNamer.PropertyCopier. PropertyTokenizer: 主要用来 ...
环境搭建 - Maven（Windows）
Maven环境搭建本文以windows7下搭建Maven-3.5.0为示例下载Maven压缩包网址:Maven 非C盘根目录下新建文件夹:Maven D:\Maven 在Maven目录下新建文件 ...
html5 拖拽上传文件时，屏蔽浏览器默认打开文件
参考: https://www.cnblogs.com/kingsm/p/9849339.html
【代码笔记】Web-CSS-CSS background背景
一,效果图. 二,代码. <!DOCTYPE html> <html> <head> <meta charset="utf-8"> ...

Python爬虫【实战篇】百度贴吧爬取页面存到本地

Python爬虫【实战篇】百度贴吧爬取页面存到本地的更多相关文章

随机推荐

热门专题