BeautifulSoup 抓取网站url

  1 # -*- coding:utf-8 -*-

  2 import urlparse

  3 import urllib2

  4 from bs4 import BeautifulSoup

  5

  6 url = "http://www.baidu.com"

  7

  8 urls = [url] # stack of urls to scrape

  9 visited = [url] # historic record of urls

 10

  1 # -*- coding:utf-8 -*-

  2 import urlparse

  3 import urllib2

  4 from bs4 import BeautifulSoup

  5

  6 url = "http://www.baidu.com"

  7

  8 urls = [url] # stack of urls to scrape

  9 visited = [url] # historic record of urls

 10

 11 while len(urls) > 0:

 12     try:

 13         htmltext = urllib2.urlopen(urls[0]).read()

 14     except:

 15         print urls[0]

 16     soup = BeautifulSoup(htmltext,"html")

 17

 18     urls.pop(0)

 19

 20     for tag in soup.findAll("a", href=True):

 21         tag["href"] = urlparse.urljoin(url, tag["href"])

 22         if url in tag["href"] and tag["href"] not in visited:

 23             urls.append(tag["href"])

 24             visited.append(tag["href"])

 25

 26     print len(urls)

BeautifulSoup 抓取网站url的更多相关文章

python抓取网站URL小工具
1.安装Python requests模块(通过pip): 环境搭建好了! 2.测试一下抓取URL的过程: 抓取出来的URL有JavaScript代码,正则上还有待更加完善,有兴趣的可以研究下~! 工 ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
php使用curl简单抓取远程url的方法
这篇文章主要介绍了php使用curl简单抓取远程url的方法,涉及php操作curl的技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了php使用curl抓取远程url的方法.分 ...
file_get_contents抓取远程URL内容
/** * POST URL * @param $url * @param null $post * @return false / string */ public static function ...
搜索会抓取网站域名的whoise信息吗
http://www.wocaoseo.com/thread-309-1-1.html 网站是否在信产部备案,这是不是会成为影响网站收录和排名的一个因素?百度是否会抓取域名注册人的相关whois信息吗 ...

随机推荐

SQL2012导出的脚本没有if exists判断
SQL2012导出的脚本没有if exists判断以前用SQL2000的时候,导出存储过程,表各种object的时候,前面会自动加if exists的一段脚本,这样的脚本很方便的可以重复执行.现在使 ...
EAS（学生管理系统）初建
一.确定开发使用的技术本次开发EAS示例网站,使用Servlet+JSP+MySQL技术,其中包括使用bootstrap工具完成简易前端页面设计.所有数据实体与数据关系皆用数 ...
前端面试题（5）列举5种IE haslayout的属性及其值
haslayout 是Windows Internet Explorer渲染引擎的一个内部组成部分.在Internet Explorer中,一个元素要么自己对自身的内容进行计算大小和组织,要么依赖于父 ...
工作中用到的一些shell命令
1.将十进制转换为十六进制 for i in `seq 0 127`; do printf "%02x\n" $i; done
激光相机数据融合（5）--Gazebo仿真数据融合
这一节将用ROS+Gazebo 环境获取激光获取点云,并用PCL和OPENCV处理,源代码在:https://github.com/ZouCheng321/5_laser_camera_sim 由于激 ...
2734:十进制到八进制-poj
总时间限制: 1000ms 内存限制: 65536kB 描述把一个十进制正整数转化成八进制. 输入一行,仅含一个十进制表示的整数a(0 < a < 65536). 输出一行,a的 ...
全内存的redis用习惯了？使用基于硬盘存储类似redis的nosql产品ssdb呢？
首先说一下背景,在双十一的时候,我们系统接受X宝的订单推送,同事原先的实现方式是使用redis的List作为推送数据的承载,在非大促的场景下, 一切运行正常,内存占用大概3-4G,机器是16G内存.由 ...
js学习笔记<拷贝传值，引用传址和匿名函数>
拷贝传值:把一个变量的值拷贝一份,传给了另外一个变量拷贝传值中,两个变量之间没有任何联系,修改其中一个一个变量的值,原来的变量不变. 例: var arr1 = ["张三",24, ...
Class 与 Style 绑定
将 v-bind 用于 class 和 style 时,Vue.js 做了专门的增强.表达式结果的类型除了字符串之外,还可以是对象或数组. 绑定 HTML Class 对象语法 <div cla ...
项目实战7—Mysql实现企业级数据库主从复制架构实战
Mysql实现企业级数据库主从复制架构实战环境背景:公司规模已经形成,用户数据已成为公司的核心命脉,一次老王一不小心把数据库文件删除,通过mysqldump备份策略恢复用了两个小时,在这两小时中,公 ...

BeautifulSoup 抓取网站url

BeautifulSoup 抓取网站url的更多相关文章

随机推荐

热门专题