Python爬虫实战（二）

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧，

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 url = 'http://tieba.baidu.com/p/3138733512?see_lz=1&pn=3'

 html = requests.get(url)

 html.encoding = 'utf-8'

 pageCode = html.text

 pattern = re.compile('d_post_content j_d_post_content ">(.*?)</div><br>',re.S)

 items = re.findall(pattern,pageCode)

 i = 1

 for item in items:

     hasImg = re.search('<img',item)

     hasHref = re.search('href',item)

     # 过滤img

     if hasImg:

         pattern_1 = re.compile('<img class="BDE_Image".*?<br><br>')

         item = re.sub(pattern_1,'',item)

     # 过滤href

     if hasHref:

         pattern_2 = re.compile('onclick="Stats.sendRequest.*?class="at">(.*?)</a>',re.S)

         item = re.findall(pattern_2,item)

     print str(i) + ':'

     # 提取href标签下的用户

     if type(item) is list:

         for each in item:

             print each

     else:

         # 过滤多余标签 ' <br> '

         pattern_Br = re.compile('<br>')

         item = re.sub(pattern_Br, '\n', item)

         # 默认删除空白符

         print item.strip()

     print '\n'

     i += 1

     # if not hasImg and not hasHref:

     #     print i

     #     print item.strip()

     #     i += 1

本来都以为大功告成了，结果..结果在提取含有@的content的时候，不是少这个就是缺那个...心塞，正则的功夫还是没下够，但是今天白天学得那些方法还是现学现用了，Get！

明天看看静觅怎么做的，又是一顿大餐，好好消化，加油！！

Python爬虫实战（二）的更多相关文章

Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Python 爬虫实战（二）：使用 requests-html
Python 爬虫实战(一):使用 requests 和 BeautifulSoup,我们使用了 requests 做网络请求,拿到网页数据再用 BeautifulSoup 解析,就在前不久,requ ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器制作爬虫的基本步骤顺便通过这个小例子,可以掌握一些有关制作爬虫的基本的步骤. 一般来说,制作一个爬虫需要分以下几个步骤: 分析需求(对,需求分析非常重要, ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
路飞学城—Python爬虫实战密训班第二章
路飞学城—Python爬虫实战密训班第二章一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip instal ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...

随机推荐

关于 submit 按钮的 onclick 验证事件，第一次验证失败，第二次 submit 按钮失效的原因解析
今天在做一个生成订单的简单验证页面主要功能:实现点击提交按钮后,先在页面上用JavaScript验证信息是否输入完全,不完全不允许提交,待输入完全后,才可以提交页面:如下页面,可以看到,当文本框有 ...
关于HttpServlet和Servlet以及doPost和doGet关系
这两天在看Servlet和Jsp,spring太难了,还是先看看基础,只怪自己太弱了. Servlet是一个接口,本身定义的是一种网络服务,HttpServlet是已经实现了Servlet接口,也就是 ...
mysql sql语句分析
1. SELECT a.id ,b.order_id,b.attr FROM tourist_order a LEFT JOIN order_attr b ON ...
no drawer view found with gravity RIGHT(Android实现侧滑菜单从右面滑出) 解决办法
代码如下: <android.support.v7.widget.Toolbar android:id="@+id/toolbar" android:layout_width ...
启发式算法、寻路算法A*算法
原文链接: http://blog.csdn.net/b2b160/article/details/4057781
【转】深入理解Java内存模型（五）——锁
锁的释放-获取建立的happens before 关系锁是java并发编程中最重要的同步机制.锁除了让临界区互斥执行外,还可以让释放锁的线程向获取同一个锁的线程发送消息. 下面是锁释放-获取的示例代 ...
HTML5 canvas中的转换方法
转换方法 scale(scalewidth,scaleheight) 缩放当前绘图至更大或更小 scalewidth 缩放当前绘图的宽度 (1=100%, ...
HTML5 web开发时遇到的一个奇葩问题。
昨天做了一个手机端的H5 页面. 首先就是各种兼容测试,调整修复..一系列操作之后,拿过来N多手机神马华为.小米.三星.水果5.6.plus,一番测试之后.嗯,还不错,稍作等待之后就上线了. 这是分割 ...
phpcms V9 联动菜单的调用
/*********************************** 通过id获取显示联动菜单的顶级父类的名称* @param $linkageid 联动菜单id* @param $keyi ...
0X0000124
求教卡饭网友,都快疯掉了. 最近搞设计,电脑频发出现蓝屏,今晚都出现三次了,新装的win7 64位系统,都是安装的原版光驱. 错误代码基本上都是:0x00000124 (0x000 ...

Python爬虫实战（二）

Python爬虫实战（二）的更多相关文章

随机推荐

热门专题