python request爬取百度贴吧

 import requests

 import os

 import shutil

 import time

 class PostBarSpider(object):

     def __init__(self, post_bar, page_number, file_dir):

         # 爬取某个贴吧前多少页内容

         self.post_bar = post_bar

         self.page = page_number

         # 保存到哪个目录

         self.file_dir = file_dir

         self.url = "https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}"

         self.headers = {

             "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

         }

     # 构造url

     def get_url_list(self):

         # url_list = []

         # for i in range(0, self.page):

         #     result = self.url.format(self.post_bar, i * 50)

         #     print(result)

         #     url_list.append(result)

         # return url_list

         return [self.url.format(self.post_bar, i * 50) for i in range(self.page)]

     # 创建保存文件的目录

     def set_dir(self):

         self.file_dir += "/{}/".format(self.post_bar)

         print("保存路径-----{}".format(self.file_dir))

         try:

             if not os.path.exists(self.file_dir):

                 os.makedirs(self.file_dir)

             else:

                 shutil.rmtree(self.file_dir)

                 os.makedirs(self.file_dir)

         except Exception as info:

             print("创建或删除文件夹出现问题")

     def run(self):

         # 设置保存目录

         self.set_dir()

         # 获得url_list

         url_list = self.get_url_list()

         # 遍历ulr_list

         for i in range(0, len(url_list)):

             response = requests.get(url_list[i], headers=self.headers)

             if response.status_code == 200:

                 # 写出数据

                 file_name = self.file_dir + "{}".format("第{}页.txt".format(i + 1))

                 file = open(file_name, "w", encoding="utf-8")

                 file.write(response.content.decode())

                 print("已写入第{}页".format(i + 1))

                 file.close()

 def main():

     start = time.time()

     my_spider = PostBarSpider("李毅", 20, "f:/post_bar_test")

     my_spider.run()

     end = time.time()

     print("耗时-----{}s".format(end - start))

 if __name__ == '__main__':

     main()

python request爬取百度贴吧的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
Python爬虫爬取百度贴吧的图片
根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2i ...
Python爬虫爬取百度贴吧的帖子
同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urlli ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
python+selenium爬取百度文库不能下载的word文档
有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器前期准备:可 ...
python+requests爬取百度文库ppt
实验网站:https://wenku.baidu.com/view/c7752014f18583d04964594d.html 在下面这种类型文件中的请求头的url打开后会得到一个页面你会得到如下图 ...

随机推荐

洛谷 P3131 [USACO16JAN]子共七Subsequences Summing to Sevens
P3131 [USACO16JAN]子共七Subsequences Summing to Sevens 题目描述 Farmer John's NN cows are standing in a row ...
ajax上传进度条
<script type="text/javascript"> function register(){ var frm = document.getElementBy ...
9 abstract 和 Virtual 之间的差别
(1) abstract方法没有详细的实现.同一时候必须被覆写 (2) 虚(Virtual)方法能够没有详细的实现,也不一定必须覆写(虚方法定义时,能够没有详细的实现代码,可是必须创建方法体:即必须有 ...
Want to archive tables? Use Percona Toolkit’s pt-archiver--转载
原文地址:https://www.percona.com/blog/2013/08/12/want-to-archive-tables-use-pt-archiver/ Percona Toolkit ...
Day1：用户交互与格式化输出
一.用户交互 1.input()方法 #!/usr/bin/env python # -*- coding:utf-8 -*- # Author:Hiuhung Wan username = inpu ...
vue指令概览
原文简书原文:https://www.jianshu.com/p/5fd47b7422fd 大纲 1.什么是vue指令 2.向指令中传入参数 3.指令中带入修饰符 4.指令的缩写 5.常见的vue指 ...
Python 爬虫从入门到进阶之路（五）
在之前的文章中我们带入了 opener 方法,接下来我们看一下 opener 应用中的 ProxyHandler 处理器(代理设置). 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的. 很 ...
（六）RabbitMQ消息队列-消息任务分发与消息ACK确认机制（PHP版）
原文:(六)RabbitMQ消息队列-消息任务分发与消息ACK确认机制(PHP版) 在前面一章介绍了在PHP中如何使用RabbitMQ,至此入门的的部分就完成了,我们内心中一定还有很多疑问:如果多个消 ...
perl对比两个文件的行
perl对比两个文件的行对比两个文件的各行,得到A与B相同的行/A与B不相同的行主要功能得到相同行得到A中包含,B不包含的行得到B中包含,A中不包含的行具体执行情况 Perl代码 #!/u ...
数学分析告诉偶们什么（vamei）
1]人生的痛苦在于追求错误的东西.所谓追求错误的东西,就是你在无限趋近于它的时候,才猛然发现,你和它是不连续的. 2]人和人就像数轴上的有理数点,彼此能够靠得非常近非常近,但你们之间始终存在隔阂. 3 ...

python request爬取百度贴吧

python request爬取百度贴吧的更多相关文章

随机推荐

热门专题