requests+xpath+map爬取百度贴吧

 # requests+xpath+map爬取百度贴吧

 # 目标内容:跟帖用户名,跟帖内容,跟帖时间

 # 分解:

 # requests获取网页

 # xpath提取内容

 # map实现多线程爬虫

 import requests

 from requests.exceptions import RequestException

 from lxml import etree

 import json

 from multiprocessing.dummy import Pool as ThreadPool

 def get_html(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         else:

             return None

     except RequestException:

         return None

 def parse_html(html):

     selector = etree.HTML(html)

     data = selector.xpath('//div[@class="l_post j_l_post l_post_bright  "]')

     for each in data:

         rs = each.xpath('@data-field')[0]

         rs = json.loads(rs)

         author = rs.get('author').get('user_name')

         author_id = rs.get('content').get('post_id')

         content = each.xpath('div/div/cc/div[@id="post_content_%s"]/text()'% author_id)[0].strip()

         date = rs.get('content').get('date')

         yield {

             'author':author,

             'content':content,

             'date':date

         }

 def save_to_txt(result):

     print('正在存储:',result)

     with open('tieba.txt','a',encoding='utf-8') as f:

         f.write('回帖作者:'+result['author']+'\n')

         f.write('回帖内容:'+result['content']+'\n')

         f.write('回帖时间:'+result['date']+'\n')

         f.write('\n')

 def main(url):

         html = get_html(url)

         if html:

             for result in parse_html(html):

                 save_to_txt(result)

 if __name__=='__main__':

     pool = ThreadPool(4)

     urls=[]

     base_url = 'http://tieba.baidu.com/p/3522395718?pn='

     for page_num in range(1, 21):

         url = base_url + str(page_num)

         urls.append(url)

     pool.map(main,urls)

     pool.close()

     pool.join()

requests+xpath+map爬取百度贴吧的更多相关文章

requests爬取百度音乐
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- ...
写一个python 爬虫爬取百度电影并存入mysql中
目标是利用python爬取百度搜索的电影在类型地区年代各个标签下电影的名字评分和图片连接以及电影连接首先我们先在mysql中建表 create table liubo4( id in ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
selenium+chrome浏览器驱动-爬取百度图片
百度图片网页中中,当页面滚动到底部,页面会加载新的内容. 我们通过selenium和谷歌浏览器驱动,执行js,是浏览器不断加载页面,通过抓取页面的图片路径来下载图片. from selenium im ...
爬虫系列(六) 用urllib和re爬取百度贴吧
这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 1.网页分析 (1)准备工作首先我们使用 Chrome 浏览器打开百度贴吧,在输入 ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
Python Requests库网络爬取全代码
#爬取京东商品全代码 import requestsurl = "http://item.jd.com/2967929.html"try: r = requests.get(url ...
Python 爬虫实例（1）—— 爬取百度图片
爬取百度图片在Python 2.7上运行 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author: loveNight import jso ...

随机推荐

CXF-02: 使用CXF处理JavaBean式的复合类型和List集合类型
Cat.java: package com.war3.ws.domain; public class Cat { private Integer id; private String name; pr ...
跨域的另一种解决方案CORS（CrossOrigin Resource Sharing）跨域资源共享
在我们日常的项目开发时使用AJAX,传统的Ajax请求只能获取在同一个域名下面的资源,但是HTML5打破了这个限制,允许Ajax发起跨域的请求.浏览器是可以发起跨域请求的,比如你可以外链一个外域的图片 ...
【Python】文件和操作文件方法
文件 ■ 基本的文件用法 f = open("path","mode") mode有a,w,r,b,+等.默认为r.模式与打开文件时的动作有关系,比如用w打开的 ...
CAS 之 Hello World（二）
CAS 之 Hello World(二) 标签(空格分隔): CAS Intro(介绍) 由上节可知Apereo CAS官方推荐使用 WAR Overlay 的方式进行部署: It is recomm ...
00_Linux介绍_我的Linux之路
原文章发布于特克斯博客www.susmote.com 什么是操作系统操作系统(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在"裸机& ...
[poj3349]Snowflake Snow Snowflakes_hash
Snowflake Snow Snowflakes poj-3349 题目大意:给出n片雪花,每片雪花有6个角,每个角有一个权值.如果两片雪花中能够各选出一个点,使得从该点顺时针或者逆时针转,得到的权 ...
shell队列实现线程并发控制（转）
需求:并发检测1000台web服务器状态(或者并发为1000台web服务器分发文件等)如何用shell实现? 方案一:(这应该是大多数人都第一时间想到的方法吧) 思路:一个for循环1000次,顺序执 ...
kvm之十二：虚拟机迁移
虚拟机迁移该方式要确保虚拟机是关机状态.virsh shutdown snalevirsh dumpxml snale > /etc/libvirt/qemu/snale_qy.xml // ...
http的CA证书安装（也就是https）
近几年随着安全意识的提高,https流行起来,很多小伙伴不太了解https是什么,其实http和https并没有区别,简单的来说,https就是将http通信进行了加密和解密的一个过程.加上谷歌浏览器 ...
[日常] NOIP前集训日记
写点流水账放松身心... 10.8 前一天考完NHEEE的一调考试终于可以开始集训了Orz (然后上来考试就迟到5min, GG) T1维护队列瞎贪心, 过了大样例交上去一点也不稳...T出翔只拿了5 ...

requests+xpath+map爬取百度贴吧

requests+xpath+map爬取百度贴吧的更多相关文章

随机推荐

热门专题