23-python用BeautifulSoup用抓取a标签内所有数据
1.获取子标签:
thr_msgs = soup.find_all('div',class_=re.compile('msg'))
for i in thr_msgs:    print(i)    first = i.select('em:nth-of-type(1)')    print(first)>>><div class='\"msg\"'><em>佛山</em><em>1-3年</em><em>大专</em></div>[<em>佛山</em>]<div class='\"msg\"'><em>南京</em><em>3-5年</em><em>本科</em></div>[<em>南京</em>]<div class='\"msg\"'><em>南阳</em><em>1-3年</em><em>大专</em></div>[<em>南阳</em>]<div class='\"msg\"'><em>深圳</em><em>1年以内</em><em>本科</em></div>[<em>深圳</em>]2.过去一个标签内内容:
原文:https://blog.csdn.net/suibianshen2012/article/details/62040460?utm_source=copy
# -*- coding:utf-8 -*-
#python 2.7
#XiaoDeng
#http://tieba.baidu.com/p/2460150866
#标签操作 from bs4 import BeautifulSoup
import urllib.request
import re #如果是网址,可以用这个办法来读取网页
#html_doc = "http://tieba.baidu.com/p/2460150866"
#req = urllib.request.Request(html_doc)
#webpage = urllib.request.urlopen(req)
#html = webpage.read() html="""
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="xiaodeng"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
<a href="http://example.com/lacie" class="sister" id="xiaodeng">Lacie</a>
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""
soup = BeautifulSoup(html, 'html.parser') #文档对象 #查找a标签,只会查找出一个a标签
#print(soup.a)#<a class="sister" href="http://example.com/elsie" id="xiaodeng"><!-- Elsie --></a> for k in soup.find_all('a'):
print(k)
print(k['class'])#查a标签的class属性
print(k['id'])#查a标签的id值
print(k['href'])#查a标签的href值
print(k.string)#查a标签的string
#tag.get('calss'),也可以达到这个效果
23-python用BeautifulSoup用抓取a标签内所有数据的更多相关文章
- python3用BeautifulSoup用字典的方法抓取a标签内的数据
		
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 #标签操作 from bs4 imp ...
 - python3用BeautifulSoup抓取a标签
		
# -*- coding:utf-8 -*- #python 2.7 #XiaoDeng #http://tieba.baidu.com/p/2460150866 from bs4 import Be ...
 - 测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇
		
测试开发Python培训:抓取新浪微博评论提取目标数据-技术篇 在前面我分享了几个新浪微博的自动化脚本的实现,下面我们继续实现新的需求,功能需求如下: 1,登陆微博 2,抓取评论页内容3,用正则表 ...
 - (转)利用Beautiful Soup去抓取p标签下class=jstest的内容
		
1.利用Beautiful Soup去抓取p标签下class=jstest的内容 import io import sys import bs4 as bs import urllib.request ...
 - SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享
		
SQL Server定时自动抓取耗时SQL并归档数据发邮件脚本分享 第一步建库和建表 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] G ...
 - Hawk: 20分钟无编程抓取大众点评17万数据
		
1. 主角出场:Hawk介绍 Hawk是沙漠之鹰开发的一款数据抓取和清洗工具,目前已经在Github开源.详细介绍可参考:http://www.cnblogs.com/buptzym/p/545419 ...
 - SQL Server定时自动抓取耗时SQL并归档数据脚本分享
		
原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享 第一步建库 USE [master] GO CREATE DATABA ...
 - 利用wireshark抓取远程linux上的数据包
		
原文发表在我的博客主页,转载请注明出处. 前言 因为出差,前后准备总结了一周多,所以博客有所搁置.出差真是累人的活计,不过确实可以学习到很多东西,跟着老板学习做人,学习交流的技巧.入正题~ wires ...
 - 用PHP抓取百度贴吧邮箱数据
		
注:本程序可能非常适合那些做百度贴吧营销的朋友. 去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发. 对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些 ...
 
随机推荐
- 如何优化tomcat配置优化
			
tomcat默认参数是为开发环境制定,而非适合生产环境,尤其是内存和线程的配置,默认都很低,容易成为性能瓶颈. tomcat内存优化 linux修改TOMCAT_HOME/bin/catalina.s ...
 - Centos7 环境下开机   自启动服务(service)   设置的改变  (命令systemctl 和 chkconfig用法区别比较)
			
参考文章: <Linux 设置程序开机自启动 (命令systemctl 和 chkconfig用法区别比较)> http://blog.csdn.net/kenhins/article/ ...
 - linux下文件解压
			
这几天要学THINKPHP框架了,于是从网上下载了一个压缩包,后缀是.zip的,解压方法为 unzip ###.zip 随便把linux下的.rar方法也写下来,这两个都不常见. unrar e ...
 - Jenkins构建常见问题
			
最近在用jenkins搭建.NET自动编译发布环境时遇到的一些问题,解释不一定都对,仅记录以备后用. 1.MSBUILD : error MSB1008: 只能指定一个项目 Build a Visua ...
 - Java与WCF交互(二):WCF客户端调用Java web service【转】
			
原文:http://www.cnblogs.com/downmoon/archive/2010/08/25/1807982.html 在上篇< Java与WCF交互(一):Java客户端调用WC ...
 - kafka搭建
			
接下来一步一步搭建Kafka运行环境. Step 1: 下载Kafka 点击下载最新的版本并解压. > tar -xzf kafka_2.9.2-0.8.1.1.tgz > cd kafk ...
 - 为已编译的DLL附带强命名
			
在我们开发的过程中,会经常调用其他人写好的DLL类库,由于种种的原因,不管是公司规定,还是个人习惯等等的原因,有时候需要调用各个类库直接邀请必须强命名. 但是我们临时也无法找到源代码进行重新编译等事情 ...
 - java并发回答
			
java 线程安全比较重要的点: 在 java 编程中,记住这些关键点可以帮你避免一些严重的并发问题,比如条件竞争或死锁. 1).不可变对象默认是线程安全的,因为他们一旦被创建就不会被修改.比 ...
 - bzoj 1002 [FJOI2007]轮状病毒——打表找规律
			
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=1002 看 Zinn 的博客:https://www.cnblogs.com/Zinn/p/9 ...
 - SouthidcEditor编辑器如何支持上传png图片
			
SouthidcEditor编辑器如何支持上传png图片? asp网站一般都是用的南方数据SouthidcEditor编辑器,可是这个编辑器上传图片功能不能上传png类型的图片,那怎么办?我(红蜘蛛网 ...