python抓取网络内容

最近想做研究互联网来获取数据，只是有一点python,让我们来看一个比较简单的实现。

例如，我想抓住奥巴马的每周演讲http://www.putclub.com/html/radio/VOA/presidentspeech/index.html，手动提取，就须要一个个点进去，再复制保存，很麻烦。

那有没有一步到位的方法呢。用python这样的强大的语言就能高速实现。

首先我们看看这网页的源代码

能够发现。我们要的信息就在这样

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvempjY29kZXI=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">一小条url中。

更详细点说，就是我们要遍历每一个类似http://www.putclub.com/html/radio/VOA/presidentspeech/2014/0928/91326.html这种网址，而这网址须要从上面的网页中提取。

好。開始写代码

首先打开这个文件夹页。保存在content

import sys,urllib

url="http://www.putclub.com/html/radio/VOA/presidentspeech/index.html"

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

以下要提取出每一篇演讲的内容

详细思路是搜索“center_box”之后，每一个“href=”和“target”之间的内容。

为什么是这两个之间，请看网页源代码。

得到的就是每一篇的url，再在前面加上www.putclub.com就是每一篇文章的网址啦

print content.count("center_box")

index =  content.find("center_box")

content=content[content.find("center_box")+1:]

content=content[content.find("href=")+7:content.find("target")-2]

filename = content

url ="http://www.putclub.com/"+content

print content

print url

wp = urllib.urlopen(url)

print "start download..."

content = wp.read()

有了文章内容的url后。相同的方法筛选内容。

#print content

print content.count("<div class=\"content\"")

#content = content[content.find("<div class=\"content\""):]

content = content[content.find("<!--info end------->"):]

content = content[:content.find("<div class=\"dede_pages\"")-1]

filename = filename[filename.find("presidentspeech")+len("presidentspeech/"):]

最后再保存并打印

filename = filename.replace('/',"-",filename.count("/"))

fp = open(filename,"w+")

fp.write(content)

fp.close()

print content

OK，大功告成！保存成.pyw文件，以后仅仅需双击就直然后存储在obama每周简报~

python抓取网络内容的更多相关文章

Python抓取视频内容
Python抓取视频内容 Python 是一种面向对象.解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年.Python语法简洁而清晰,具 ...
iOS开发——网络使用技术OC篇&网络爬虫－使用正则表达式抓取网络数据
网络爬虫-使用正则表达式抓取网络数据关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
关于python抓取google搜索结果的若干问题
关于python抓取google搜索结果的若干问题前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童 ...
Python抓取框架：Scrapy的架构
最近在学Python,同时也在学如何使用python抓取数据,于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy,下面一起学习下Scrapy的架构,便于更好的使用这个工具. 一.概述下 ...
Python抓取国家医疗费用数据：国家名、人均开销
前言整个世界正被大流行困扰着,不同国家拿出了不同的应对策略,也取得了不同效果.这也是本文的脑洞来源,打算研究一下各国在医疗基础设置上的开支,对几个国家的医疗费用进行数据可视化. 由于没有找到最近一年 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
Python抓取页面中超链接(URL)的3中方法比较(HTMLParser.pyquery.正则表达式) HTMLParser版: #!/usr/bin/python # -*- coding: UT ...

随机推荐

Windows Phone开发（9）：关于页面状态
原文:Windows Phone开发(9):关于页面状态按照一般做法,刚学会如何导航,还是不够的,因为要知道,手机里面的每个页面,就如同Web页面一样,是无状态的. 啥是无状态?如果我们玩过Web开 ...
mysql多实例的配置（转）
1.创建多实例的目录: mkdir -p /data/mysql/mysql_3307/{data,tmp,logs} mkdir -p /data/mysql/mysql_3308/{data,tm ...
解决mongodb设备mongod命令不是内部或外部的命令
1:安装去mongodb的官网http://www.mongodb.org/downloads下载32bit的包解压后会出现下面文件在安装的盘C:下建立mongodb目录,拷贝bin目录到该目录 ...
使用2DToolkit报错“ OverflowException: Value is too large”
今天使用2DToolkit做图集和动画时报错“ OverflowException: Value is too large”,大侠们说是字符串转整型时超过了Int的大小范围,所以报错.后来我一位同事高 ...
c++ primer 函数传值1
不看c++ primer 永远不知道自己基础有多差函数的參数传值一般有两种方式:值传递,引用传递. 值传递有以下两种形式: void func( int a ) { // } void func1 ...
c++头
头文件c/c++独特的概念. 首先解释声明和定义的区别. extern int x;这是一个可变x声明,void fun();这是函数fun()声明.class a;这是类a声明. int x;变量x ...
Spring3 MVC请求参数获取的几种场景
访问/aaa/bbb所对应的@Controller @RequestMapping("/aaa")//类级别,可以不需要,如果要了,下面所有的请求路径前都需要加入/aaa publ ...
HDU 3829 Cat VS Dog
题意: p个人每一个人有喜欢和讨厌的动物假设选出的动物中包括这个人喜欢的动物同一时候不包括他讨厌的动物那么这个人会开心问最多几个人开心思路: 二分图最大独立集利用人与人之间的冲突 ...
Eclipse4.4设备egit插件提交本地项目代码到远程仓库
一.设备egit 打开Eclipse的Marketplace.在搜索框中输入egit就可以,能够看到Eclipse4.4已经默认安装了egit,当然假设有新版本号的egit公布的话,也能够在下图上点击 ...
7 JavaScript Basics Many Developers Aren't Using (Properly)【转】
JavaScript, at its base, is a simple language that we continue to evolve with intelligent, flexible ...

python抓取网络内容

python抓取网络内容的更多相关文章

随机推荐

热门专题