用python做爬虫的例子

主要就是用了两个库，urllib和BeautifulSoup.

作用是从HTML中解析出解梦的查询词和具体的解释。

 # -*- coding: utf-8 -*-

 import urllib, urllib2

 import time, random

 from BeautifulSoup import BeautifulSoup

 def fetchURL(str_url):

     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) \

                   AppleWebKit/537.36 (KHTML, like Gecko)'

     values     = {}

     headers    = {'User-Agent': user_agent}

     data       = urllib.urlencode(values)

     content = ''

     try:

         request = urllib2.Request(str_url)

         response = urllib2.urlopen(request)

         html = response.read().decode('gb2312')

         content = parse_content_page(html)

     except:

         content = None

     return content

 def parse_content_page(html):

     parsed_html = BeautifulSoup(html)

     try:

         title   = parsed_html.body.find('h1', attrs={'class':'art_title'}).text

         content = parsed_html.body.find('div', attrs={'class':'dream_detail'}).text

     except:

         return None

     return [title, content]

 if __name__ == '__main__':

     foutput = 'jiemeng.txt'

     with open(foutput, 'w') as fout:

         for i in xrange(1, 10):

             reques_url = 'http://tools.2345.com/zhgjm/%s.htm' % str(i)

             x = fetchURL(reques_url)

             if x != None:

                 print >>fout, x[0].encode('utf8')[3:-3]

                 print >>fout, x[1].encode('utf8')

             # sleep for a while between two http requests

             seconds = random.random()*10 + 2

             time.sleep(seconds)

用python做爬虫的例子的更多相关文章

Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
使用python做最简单的爬虫
使用python做最简单的爬虫 --之心 #第一种方法import urllib2 #将urllib2库引用进来response=urllib2.urlopen("http://www.ba ...
[Python] 网络爬虫和正则表达式学习总结
以前在学校做科研都是直接利用网上共享的一些数据,就像我们经常说的dataset.beachmark等等.但是,对于实际的工业需求来说,爬取网络的数据是必须的并且是首要的.最近在国内一家互联网公司实习, ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
[转]使用 mitmproxy + python 做拦截代理
使用 mitmproxy + python 做拦截代理本文是一个较为完整的 mitmproxy 教程,侧重于介绍如何开发拦截脚本,帮助读者能够快速得到一个自定义的代理工具. 本文假设读者有基本的 ...
Python 网络爬虫 001 (科普) 网络爬虫简介
Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的我举几个生活中的例子: 例子一: 我平时会将学到的知识和积累的经验写成博客发送到CSDN博客网站上,那么对于我 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
自学Python六爬虫基础必不可少的正则
要想做爬虫,不可避免的要用到正则表达式,如果是简单的字符串处理,类似于split,substring等等就足够了,可是涉及到比较复杂的匹配,当然是正则的天下,不过正则好像好烦人的样子,那么如何做呢,熟 ...

随机推荐

Linux-编译器gcc/g++编译步骤
gcc和g++现在是gnu中最主要和最流行的c&c++编译器.g++是c++的命令,以.cpp为主:对于c语言后缀名一般为.c,这时候命令换做gcc即可.编译器是根据gcc还是g++来确定是按 ...
构建者模式（Builder）示例代码
package com.test; /** * Created by xiaonanhai on 2015/5/30. */ public class Builder { private String ...
linux下一键安装 powershell,的bash脚本
说明目前,linux下的powershell约等于pash.希望大家专注mono,关注pash. 一键安装脚本包括for centos6,centos7,ubuntu 14.04 ubuntu 1 ...
JAVA之关于This的用法
JAVA之关于This的用法业精于勤,荒于嬉:行成于思,毁于随.——韩愈用类名定义一个变量的时候,定义的应该只是一个引用,外面可以通过这个引用来访问这个类里面的属性和方法,那们类里面是够也应该 ...
office2013不能正常使用
感觉非常卡一样还不能显示内容工具栏也点不动这个应该是Office硬件图形加速惹得祸,解决办法: 文件>选项>高级>显示,找到“禁用硬件图形加速”在前面打勾,关闭再打开就OK ...
Codeforces Round #249 (Div. 2)
A.水题. #include <cstdio> #include <iostream> #include <cstdlib> #include <cstrin ...
Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
html<textarea>标签
最近在项目中页面回显<textarea>的值,可是设置了value属性怎么也回显不出来,后来才弄清楚,原来想要设置<textarea>的文本,不是使用value,而是如下方式: ...
hdu 2078
ps:超水题....(a+b)^2>=a^2+b^2...刚开始还想了好久...真佩服自己.. #include "stdio.h" #define min1(a,b) a& ...
poj蚂蚁问题
问题描述: n只蚂蚁以每秒1cm的速度在长为Lcm的竿子上爬行.当蚂蚁爬到竿子的端点时就会掉落.由于竿子太细,两只蚂蚁相遇时,它们不能交错通过,只能各自反向爬回去.对于每只蚂蚁,我们知道它距离竿子左 ...

用python做爬虫的例子

用python做爬虫的例子的更多相关文章

随机推荐

热门专题