爬虫之Beautifulsoup的基本实用

基本方法如下:

# soup.a 只能找到第一个符合要求的标签

# soup.a.attrs 获取a所有的属性和属性值

# soup.a.attrs['href'] 获取href属性

# soup.a.string 获取a标签中存储的文本内容(直系)

# soup.a.text # 非直系 该标签下所有的文本内容

# soup.a.get_text() # 非直系 该标签下所有的文本内容

# soup.find('a') 找到第一个符合要求的标签

# soup.find('a', id='xxx') id为xxx的的a标签(返回一个)

# soup.findall('a') # 找到所有a标签

# soup.findall(['a', 'b']) # 找到所有a标签和b标签

# soup.select() # 根据选择器选择定位到标签

简单案例: 下载诗词名句网的三国演义文章

import requests

from bs4 import BeautifulSoup

url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

fileTxt = requests.get(url).text

soup = BeautifulSoup(fileTxt, 'lxml')

a_list = soup.select('.book-mulu > ul > li > a')

f = open('sanguo.txt', 'w', encoding='utf8')

for a in a_list:

    title = a.string

    detail_url = 'http://www.shicimingju.com' + a['href']

    text = requests.get(detail_url).text

    detail_soup = BeautifulSoup(text, 'lxml')

    content = detail_soup.find('div', class_='chapter_content').text

    f.write(title+'\n'+content)

    print(f'{title} 下载完毕')

print('over')

f.close()

爬虫之Beautifulsoup的基本实用的更多相关文章

爬虫模块BeautifulSoup
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html# 1.1 安装BeautifulSoup模块 ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
python爬虫之BeautifulSoup
爬虫有时候写正则表达式会有假死现象就是正则表达式一直在进行死循环查找例如:https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac ...
web爬虫，BeautifulSoup
BeautifulSoup 该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单. 1 2 3 ...
python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
python3: 爬虫---- urllib, beautifulsoup
最近晚上学习爬虫,首先从基本的开始: python3 将urllib,urllib2集成到urllib中了, urllib可以对指定的网页进行请求下载, beautifulsoup 可以从杂乱的ht ...

随机推荐

【洛谷 5002】专心OI - 找祖先（树上计数）
专心OI - 找祖先题目背景 \(Imakf\)是一个小蒟蒻,他最近刚学了\(LCA\),他在手机\(APP\)里看到一个游戏也叫做\(LCA\)就下载了下来. 题目描述这个游戏会给出你一棵树,这 ...
POJ3321 Apple Tree (JAVA)
树形数组题,有一定难度. 首先得搞清楚树形数组是什么 - 它是建立在原始数组上的统计数组 - 目的:方便对原始数组进行切片统计,主要用于统计切片的累加和其实你可以对切片进行扫描,把元素一个一个加起来 ...
HTML-JavaScript的DOM操作-非重点部分
1.DOM的基本概念 DOM是文档对象模型,这种模型为树模型:文档是指标签文档(HTML文档),对象是指文档中每个元素:模型是指抽象划的东西. 2.Windows对象操作一.属性和方法属性(值或者 ...
关于如何爬虫妹子图网的源码分析 c#实现
网上也出现一些抓取妹子图的python 代码,今天我们用c#实现爬虫过程. 请看我的网站: www.di81.com private void www_94xmn_Com(string url, st ...
认识CSS中盒子模型
前端之HTML,CSS(六) CSS 盒子模型 CSS中的重点,理解盒子模型对于CSS才能有更清晰的认识.网页说简单一点其实就是一块一块的拼接出来的,可以想象成拼图,所有图块拼接在一起就成了一幅图像. ...
js map()初步学习
//array.map(callback,thisObject?),callback需要有return值 //map:'映射' 被映射成新的数组 eg1: let data = [3,4,2]; l ...
怎么在vue中引入layui
新项目想用layui框架,学习了把前辈是怎么引入layui的,这里记录下 1.index.html要引入layui.js文件 <script src="/static/layui/la ...
换个角度看Salesforce之基础配置学习笔记(一)
1. Salesforce.com与force.com的关系: Salesforce.com is build on the force.com platform seamlessly.That is ...
3、在Shell程序中使用的参数
学习目标位置参数内部参数如同ls命令可以接受目录等作为它的参数一样,在Shell编程时同样可以使用参数.Shell程序中的参数分为位置参数和内部参数等. 12-3-1 位置参数由系统提供的参数称为位 ...
python2.7 输入&函数参数&路径表示&各种下标_含义
1.Python2.x与3.x的input区别 input与python3不同,在python2.7中分为input()与raw_input() 其中input()返回的是int/float类型数据, ...

爬虫之Beautifulsoup的基本实用

爬虫之Beautifulsoup的基本实用的更多相关文章

随机推荐

热门专题