通过request获取网页资讯通过BeautifulSoup剖析网页元素

import requests

newsUrl ='http://news.sina.com.cn/china/'

res = requests.get(newsUrl)

res.encoding ='utf-8’

pint

print(res.text)

//然后通过DOM Tree来剖析网页元素

from bs4 import BeautifulSoup

html_sample ='\

<html>\

<body>\

<h1 id="title">this is h1</h1>\

<a class="link" href="fdfdfdfd">this is a link</a>\

<a class="link" href="fdfdfdfd">this is another link</a>\

</body>\

</html>'

'''

html.parser 解析器 ,不写的话会发出警告

'''

soup = BeautifulSoup(html_sample,'html.parser’)

print(soup.text)

#找出所有含特定标签的HTML元素

#1: 使用select 找出含有h1标签的元素

header = soup.select('h1’)

print(header)print(header[0].text )

#第0个标签中的文字

#2: 使用select找出含有a标签的元素

alink = soup.select('a’)

print(alink)

for link in alink:

#print(link)

print(link.text)

#取得含有特定CSS属性的元素

#1使用select找出所有id为title的元素(id前需加#)

aTitle = soup.select('#title')

print(aTitle)

#2使用select找出所有class为link的元素(class前需要加.)

for mylink in soup.select('.link'):

print(mylink)

#取得所有a标签内的链接

#使用select找出所有a tag的href连结

ahref = soup.select('a')

for ah in ahref:

print(ah['href'])

通过request获取网页资讯通过BeautifulSoup剖析网页元素的更多相关文章

Request获取具有相同 name 属性表单元素值
html代码如: <input name="txtName" id="txtFirstName" type="text" /> ...
Python获取网页指定内容(BeautifulSoup工具的使用方法)
Python用做数据处理还是相当不错的,如果你想要做爬虫,Python是很好的选择,它有很多已经写好的类包,只要调用,即可完成很多复杂的功能,此文中所有的功能都是基于BeautifulSoup这个包. ...
jsp Request获取url信息的各种方法比较
从Request对象中可以获取各种路径信息,以下例子: 假设请求的页面是index.jsp,项目是WebDemo,则在index.jsp中获取有关request对象的各种路径信息如下 String p ...
request 获取各种路径
从request获取各种路径总结 request.getRealPath("url"); // 虚拟目录映射为实际目录 request.getRealPath("./&q ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
request获取各种路径
equest.getRealPath() 这个方法已经不推荐使用了,代替方法是: request.getSession().getServletContext().getRealPath() 在ser ...
从request获取各种路径总结
一.获得都是当前运行文件在服务器上的绝对路径在servlet里用: this.getServletContext().getRealPath() 在struts用: this.getServlet( ...
request获取路径方式
从request获取各种路径总结 request.getRealPath("url"); // 虚拟目录映射为实际目录 request.getRealPath("./&q ...
从request获取各种路径总结 request.getRealPath("url")
转载:http://blog.csdn.net/piaoxuan1987/article/details/8541839 equest.getRealPath() 这个方法已经不推荐使用了,代替方法是 ...

随机推荐

rem初始化
使用css实现rem适配,头部引入即可 adaptive.js !function(e, t) { function i() { o = , e.devicePixelRatioValue = o, ...
sql建立一种，自定义的执行作业
USE [chongwu] GO /****** Object: StoredProcedure [dbo].[p_createjob] Script Date: 01/21/2016 14:32:0 ...
5J - 复习时间
为了能过个好年,xhd开始复习了,于是每天晚上背着书往教室跑.xhd复习有个习惯,在复习完一门课后,他总是挑一门更简单的课进行复习,而他复习这门课的效率为两门课的难度差的平方,而复习第一门课的效率为1 ...
andorid 练习微信登陆
AndroidManifest.xml layout1.xml <?xml version="1.0" encoding="utf-8"?> < ...
appache压力测试
apache自带压力工具测试说明: Usage: ab [options] [http[s]://]hostname[:port]/pathOptions are: -n requests Numbe ...
抽屉效果几大github第三方库
首先感谢董铂然博客园,鄙人收藏学习之用,如有朋友看到.有需要请直接前往董铂然博客园本文, 请点击查看原文在公司项目新版本方案选择中,对主导航中要使用的抽屉效果进行了调研.主要原因是旧的项目中所用的库 ...
php7.0-fpm.sock
.sock 这种方式是套接字的方式连接的
Statement、PreparedStatement、CallableStatement的区别
此三个接口的声明如下: public interface Statement extends Wrapper, AutoCloseable public interface PreparedState ...
关键词提取_tf_idf
TF-IDF(term frequency-inverse document frequency)-词频-逆文档频率 TF:统计一个词在文档中出现的频次,次数越多,表达能力越强 IDF:统计一个词在文 ...
muduo 的windows下的编译
四处寻觅开源代码学习,适合的代码非常稀少,不适合的原因却千奇百怪. 不是使用语言特性过于老旧(c++03) 就是使用的冷僻语法(template<T> enable_share_from_ ...

通过request获取网页资讯 通过BeautifulSoup剖析网页元素

通过request获取网页资讯 通过BeautifulSoup剖析网页元素的更多相关文章

随机推荐

热门专题

通过request获取网页资讯通过BeautifulSoup剖析网页元素

通过request获取网页资讯通过BeautifulSoup剖析网页元素的更多相关文章