Python爬虫实战（二）

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧，

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 url = 'http://tieba.baidu.com/p/3138733512?see_lz=1&pn=3'

 html = requests.get(url)

 html.encoding = 'utf-8'

 pageCode = html.text

 pattern = re.compile('d_post_content j_d_post_content ">(.*?)</div><br>',re.S)

 items = re.findall(pattern,pageCode)

 i = 1

 for item in items:

     hasImg = re.search('<img',item)

     hasHref = re.search('href',item)

     # 过滤img

     if hasImg:

         pattern_1 = re.compile('<img class="BDE_Image".*?<br><br>')

         item = re.sub(pattern_1,'',item)

     # 过滤href

     if hasHref:

         pattern_2 = re.compile('onclick="Stats.sendRequest.*?class="at">(.*?)</a>',re.S)

         item = re.findall(pattern_2,item)

     print str(i) + ':'

     # 提取href标签下的用户

     if type(item) is list:

         for each in item:

             print each

     else:

         # 过滤多余标签 ' <br> '

         pattern_Br = re.compile('<br>')

         item = re.sub(pattern_Br, '\n', item)

         # 默认删除空白符

         print item.strip()

     print '\n'

     i += 1

     # if not hasImg and not hasHref:

     #     print i

     #     print item.strip()

     #     i += 1

本来都以为大功告成了，结果..结果在提取含有@的content的时候，不是少这个就是缺那个...心塞，正则的功夫还是没下够，但是今天白天学得那些方法还是现学现用了，Get！

明天看看静觅怎么做的，又是一顿大餐，好好消化，加油！！

Python爬虫实战（二）的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Python 爬虫实战（二）：使用 requests-html
Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requ ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
路飞学城—Python爬虫实战密训班第二章
路飞学城—Python爬虫实战密训班第二章一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip instal ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...

随机推荐

linux下查看文件系统类型
1. df -hT命令 -h, --human-readable print sizes in human readable format (e.g., 1K 234M 2G) -T, --pr ...
TP框架多表联查
join方法import("@.ORG.Page"); $Form = M('gly'); $where=''; if ($_PO ...
03-StreamReader和StreamWriter的案例
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.I ...
C++标准库<string>简单总结
C++标准库<string>简单总结在C++中,如果需要对字符串进行处理,那么它自带的标准库<string>无疑是最好的选择,它实现了很多常用的字符处理函数. 要想使用标准C ...
AjaxManager的实现
在NeralJS思路整理一章中我们提到过实用ajax管理模块控制ajax请求,以减少ajax请求数量,优化加载,以下是ajax模块的实现,我已经确保经历简单. /** * Created by wil ...
asp.net 连接oracle，报错误“System.Data.OracleClient 需要 Oracle 客户端软件 8.1.7 或更高版本
1.http://www.oracle.com/technetwork/database/features/instant-client/index-097480.html 下载对用版本的Instan ...
Mac系统配置多个git账号
1.进入ssh目录 #cd ~/.ssh/ 2.用ssh-keygen命令生成一组新的id_rsa_new和id_rsa_new.pub #ssh-keygen -t rsa -C"new ...
Y - Design T-Shirt（第二季水）
Description Soon after he decided to design a T-shirt for our Algorithm Board on Free-City BBS, XKA ...
google protocol buffer -2-.proto 定义规则
essage为主要关键字,类似于java中的class.定义简单message类型 SearchRequest.proto定义了每个查询请求的消息格式,每个请求都会有查询关键词query,查询结果的页 ...
jquery mobile页面切换效果(Flip toggle switch)(注：jQuery移动使用的数据属性的列表。 )
1.页面切换(data-transition)

Python爬虫实战（二）

Python爬虫实战（二）的更多相关文章

随机推荐

热门专题