python 页面信息抓取
1. 特点
  在python 解析html这篇文章中已经做了初步的介绍,接下来再坐进一步的说明。python抓取页面信息有下面两个特点: 
  
- 依赖于HTML的架构。 
- 微小的变化可能会导致抓取失败,这取决于你编码的技巧。 
2. 抓取演示样例
首先看一下百度视频网页的源码,大致浏览下,选定要抓取的网页元素。
   
   
  如果我们要对div标签id为focusCarouselList里的相关内容进行提取。
首先进入python命令行环境,先依照下面代码打开网页并读取内容。 
  
>>>
>>> import urllib
>>> from bs4 import BeautifulSoup
>>>
>>> httpRespone = urllib.urlopen(“http://video.baidu.com“)
>>>
>>> httpRespone.code
200
>>>
  将页面信息读入到html的一个变量中:html = httpRespone.read()。 
  使用BeautifulSoup解析这个页面:bs = BeautifulSoup(html,"lxml")。
  查找id为ocusCarouselList的div标签:focusList = bs.find('div',id='focusCarouselList')。 
   
   
   
  在focusList中查找这一div中全部的超链接:allLinks = focusList.find_all('a')。 
  可用allLinks[0]直接訪问第一个链接的内容: 
  
watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="link0" title=""> 
   
  如果要在这些超链接中查找标题为“协警押送嫌犯遭其同伙突击”,可用下面代码: 
  videoLink1 = bs.find('a',{'title':'协警押送嫌犯遭其同伙突击'}) 
   
   
  videoLink1[‘href’]能够直接获取到链接的地址。
   
  查找全部图片的标签:imgLinks = focusList.find_all('img')。 
  获取某个图片链接的源地址:imgLinks[0]['src'] 
  
python 页面信息抓取的更多相关文章
- 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)
		转自原文 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ... 
- 爬虫技术 -- 进阶学习(十)网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)
		最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ... 
- 网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp
		最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ... 
- Python学习之静态页面数据抓取
		1 页面信息抓取 定义getPage函数,根据传入的页码get到整个页面的html内容 getContent函数,通过正则匹配把页面中的表格部分的html内容取出 最后定义getData函数,同样是通 ... 
- Python爬虫实战---抓取图书馆借阅信息
		Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ... 
- Ajax异步信息抓取方式
		淘女郎模特信息抓取教程 源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z 判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ... 
- 如何利用Python网络爬虫抓取微信朋友圈的动态(上)
		今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ... 
- 如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
		前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ... 
- Python 3.6 抓取微博m站数据
		Python 3.6 抓取微博m站数据 2019.05.01 更新内容 containerid 可以通过 "107603" + user_id 组装得到,无需请求个人信息获取: 优 ... 
随机推荐
- git add 文档
			GIT-ADD(1) Git Manual GIT-ADD(1) NAME git-add - Add file contents to the index SYNOPSIS git add [-n] ... 
- [解决] win7能上网,ubuntu14.04不行
			更新驱动 http://www.realtek.com.tw/downloads/downloadsView.aspx?Langid=1&PNid=13&PFid=5&Leve ... 
- HDU 4355.Party All the Time-三分
			Party All the Time Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ... 
- Dijkstra算法解决单源最短路径
			单源最短路径问题:给定一个带权有向图 G = (V, E), 其中每条边的权是一个实数.另外,还给定 V 中的一个顶点,称为源.现在要计算从源到其他所有各顶点的最短路径长度.这里的长度是指路上各边权之 ... 
- HDFS API 学习:几个常用的API
			1.Hadoop-1.2.1 API 文档:http://hadoop.apache.org/docs/r1.2.1/api/ 2.几个API: create(Path f) :Opens an FS ... 
- UVALive - 3211 (2-SAT + 二分)
			layout: post title: 训练指南 UVALive - 3211 (2-SAT + 二分) author: "luowentaoaa" catalog: true m ... 
- [xsy1140]求值
			$\newcommand{ali}[1]{\begin{align*}#1\end{align*}}$题意:给定$n,b,c,d,e,a_{0\cdots n-1}$,令$x_k=bc^{4k}+dc ... 
- 【最小瓶颈生成树】【最小生成树】【kruscal】bzoj1083 [SCOI2005]繁忙的都市
			本意是求最小瓶颈生成树,但是我们可以证明:最小生成树也是最小瓶颈生成树(其实我不会).数据范围很小,暴力kruscal即可. #include<cstdio> #include<al ... 
- 【块状树】【LCA】bzoj1787 [Ahoi2008]Meet 紧急集合
			分块LCA什么的,意外地快呢…… 就是对询问的3个点两两求LCA,若其中两组LCA相等,则答案为第三者. 然后用深度减一减什么的就求出距离了. #include<cstdio> #incl ... 
- Java多线程——ReentrantLock源码阅读
			上一章<AQS源码阅读>讲了AQS框架,这次讲讲它的应用类(注意不是子类实现,待会细讲). ReentrantLock,顾名思义重入锁,但什么是重入,这个锁到底是怎样的,我们来看看类的注解 ... 
