"""
本案例不涉及数据提取,
仅指导 网页分页爬取的两种方式 思路

第一种:利用while Ture,传参,然后在设定一个判断条件,案例中用的是如果找不到下一页,循环退出(可用于异步刷新网站)
第二种:利用while Ture不断循环, 获取下一页url,获取不到,循环退出。 优化了异常处理。当输入的贴吧名称有误时,程序重新运行
"""
import requests
from fake_useragent import FakeUserAgent
import time
import random
import re

# 第一种,定义一个url
def f1():
num = 1
kw=input("请输入贴吧名称>>")
pn=0
# 获取网页
# 定义一个url
# 不断运行代码
while True:
base_url ="http://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}"
userAgent = FakeUserAgent().random
headers = {"User-Agent":userAgent}
htmlStr = requests.get(url=base_url.format(kw,pn),headers=headers).text

"""
对网页进行处理,不影响提取内容,
只影响页面显示,在这里主要是想把replace
这个函数练习一下(替换内容,用来处理字符串)
支持链式规则
"""
htmlStr=htmlStr.replace('-->','').replace('-->','')
# print(htmlStr)
# 进行保存
with open(r'./baidutieba/百度贴吧第%s页.html'%num,'w',encoding='utf-8') as f:
f.write(htmlStr)
print('主人,运行状态良好,正在保存第%s页'%num)
if htmlStr.find('class="next pagination-item " >') == -1:
break

# 设置延迟时间
time.sleep(1.5)

#运行一次,url的参数改变一次
num+=1
pn+=50

# 第二种
def f2():
num = 1
kw = input(">>请输入贴吧名称:")
# 定义一个初始url
url = 'http://tieba.baidu.com/f?kw={}&ie=utf-8&pn=0'.format(kw)
# 随机user-agent
while True:
userAgent = FakeUserAgent().random
headers = {"User-Agent": userAgent}
# 获取到html网页(字符串)
htmlStr = requests.get(url, headers=headers).text

# 保存
with open(r'./baidutieba/百度贴吧第%s页.html' % num, 'w', encoding='utf-8') as f:
f.write(htmlStr)
print("正在保存第%s页"%num)
try:
# 获取到下一页的url
result = re.findall(r'<a href="(.*?)" class="next pagination-item " >', htmlStr)
print(result[0])
print(type(result[0]))
if result:
url = 'http:'+ result[0]
else:
break
# 设置延时时间
time.sleep(1.5)
num += 1
except Exception as e:
print(e,"输入贴吧名称有误")
f2()

if __name__ == '__main__':
# f1()
f2()

spider_object_01使用正则爬取百度贴吧所有内容保存成html的更多相关文章

  1. requests+xpath+map爬取百度贴吧

    # requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...

  2. Python爬虫爬取百度贴吧的帖子

    同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urlli ...

  3. 利用python的爬虫技术爬取百度贴吧的帖子

    在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...

  4. Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友(主要是爬虫)

    一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块 用pip安装命令是: pip install qqbot (前提需要有request ...

  5. 第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

    第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多 ...

  6. 十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

    crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...

  7. Python爬虫实战二之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

  8. 百度图片爬虫-python版-如何爬取百度图片?

    上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...

  9. Python开发简单爬虫(二)---爬取百度百科页面数据

    一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...

  10. requests+正则爬取豆瓣图书

    #requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...

随机推荐

  1. C# 查看变量的内存占用和分布

    在程序的调试过程中,有时候我们想知道变量在内存中的具体占用状况,这样方便我们调试程序,以便于追踪变量的变化过程 这就需要查看变量的内存占用. 1.如何进入内存查看? 2.如何查看变量? 查看变量,需要 ...

  2. node 版本管理器 nvs

    node 总是在不断的升级,以前老项目在运行时可能会报错 我遇到了一个 PostCSS received undefined instead of CSS string 查了下可能是node-sass ...

  3. 架构的生态系 资讯环境被如何设计至今.PDF

    书本详情 架构的生态系 资讯环境被如何设计至今 作者: 濱野智史出版社: 大鴻藝術股份有限公司副标题: 資訊環境被如何設計至今?原作名: アーキテクチャの生態系――情報環境はいかに設計されてきたか译者 ...

  4. Spring 事务传播属性

    Spring 事务相关 3 个 API 定义类 Spring 事务底层 API 定义主要有 PlatformTransactionManager.TransactionDefintion 和 Tran ...

  5. Camstar代码:指定执行某函数

  6. SDM

    SDM:sigma delta Modulator SC:switch capacitor(开关电容) sigma delta调制器的分类 •单环路和级联(cascade)SDM:在于使用的量化器的数 ...

  7. 在wsl 2中编译自己的魔趣(mokee) ROM

    1.安装wsl2 a.在windows 10 系统中启用wsl2(只能是wsl2,wsl1 会编译失败), 并商店中下载ubuntu镜像,商店默认安装位置为C:\Program Files\Windo ...

  8. Java基础__01.环境安装

    该篇文章,主要讲述了Java的一些基础知识及准备工作. Java的特性 简单性 面向对象 可移植性,即跨平台性(Write Once, Run Anywhere) 高性能 分布式 动态性 多线程 安全 ...

  9. &以及&&的用法总结

    &有两种用法 1.取地址 2.引用 取地址和引用没有任何关系,不要瞎联系! 1.取地址: // 很常规,仅此而已 std::string *p = &s; 2.引用: a)引用是某一个 ...

  10. 关于新手在使用git过程中的基本问题--前端开发篇

    1.首先git是什么? git学名叫做分布式版本控制系统. 它能做啥呢?想一想,你在写项目的时候,尤其是大型的协作项目,往往一个项目会经过很多次修改才上线,在这个过程中,你会写项目1.0版.2.0版诸 ...