Beautifulsoup关于find的测试

from bs4 import BeautifulSoup

import requests

url='https://book.douban.com/subject_search?search_text=golang&cat=1001'

html=requests.get(url).text

# print(html)

soup=BeautifulSoup(html,'lxml')

booknames=soup.findAll('li',{'class':'subject-item'})   #查找标签

bookname=[]

chubanshe=[]

year=[]

pingjia_price=[]

for name in booknames:

    a=name.get_text().replace(' ','').replace('\n','').split('/')  #get_text方法

    # print(a)

    bookname.append(a[0])

    chubanshe.append(a[1])

    year.append(a[2])

    pingjia_price.append(a[-1])

print(bookname)

print(chubanshe)

print(year)

print(pingjia_price)

　　beautifulsoup中的find和findall参数

findAll(tag,attributes,recursive,text,limit,keywords)

findAll(tag,attributes,recursive,text,keywords)

分别代表，标签，传入字典形式的标签属性，递归开关，文本匹配数量，limitpi匹配前多少项目，关键字参数

一般来说，使用，第一个和最后的关键字参数便可，其他都是默认参数，

Beautifulsoup关于find的测试的更多相关文章

beautifulsoup测试
import re from bs4 import BeautifulSoup html_doc = """ <html><head><ti ...
BeautifulSoup库测试代码
import requests from bs4 import BeautifulSoup import time headers={ #'User-Agent':'Nokia6600/1.0 (3. ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
BeautifulSoup ：功能使用
# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Envirom ...
使用Beautifulsoup爬取药智网数据
使用Beautifulsoup模块爬取药智网数据 Tips:1.爬取多页时,先用一页的做测试,要不然ip容易被封 2.自己常用的处理数据的方法: reg=re.compile('正则表达式') dat ...
python+urllib+beautifulSoup实现一个简单的爬虫
urllib是python3.x中提供的一系列操作的URL的库,它可以轻松的模拟用户使用浏览器访问网页. Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能 ...
Python-Windows下安装BeautifulSoup和requests第三方模块
http://blog.csdn.net/yannanxiu/article/details/50432498 首先给出官网地址: 1.Request官网 2.BeautifulSoup官网我下载的 ...
BeautifulSoup获取指定class样式的div
如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法, 1)用字符串查找方法,然 ...
Python -- BeautifulSoup的学习使用
BeautifulSoup4.3 的使用下载和安装 # 下载 http://www.crummy.com/software/BeautifulSoup/bs4/download/ # 解压后使用r ...

随机推荐

hishlib 算法加密
通过hashlib MD5得到一个32的加密密码 import hashlib def getMD5(): md5 = hashlib.md5() #调用MD5加密方法 with open(path ...
linux 基础知识（三）
抽空把Linux的一些基础的东西再补充一下,安全的东西真的很多都是要自己不断的学习,很多还是今天学习了一点时间过后不用就会忘记.所以学习的东西就是要不断地往复. 有时候感觉有时候快就是慢,慢就是快. ...
requests中get和post传参
get请求 get(url, params=None, **kwargs) requests实现get请求传参的两种方式方式一: import requests url = 'http://www. ...
POJ 3080 Blue Jeans (字符串处理暴力枚举）
Blue Jeans Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 21078 Accepted: ...
bootstrap的模拟单选按钮
<div class="btn-group" data-toggle="buttons" id="radio"> <lab ...
js模板引擎art-Template（以前的artTemplate）
使用js.jquery动态生成html会非常麻烦.现在的模板引擎可以很简单的解决这个问题.比如腾讯出的art-Template 官网:http://aui.github.io/art-template ...
Memcached 快速入门
Memcached简介 Memcached是一个专门用来做缓存的服务器,而且缓存的数据都在内存中.Memcached就相当于一个Dictionary键值对集合,保存的是键值对,然后根据key取valu ...
Android.os.SystemClock
https://www.linuxidc.com/Linux/2011-11/48325p2.htm 文档中对System.currentTimeMillis()进行了相应的描述,就是说它不适合用在需 ...
.NET C# 创建WebService服务简单的例子
Web service是一个基于可编程的web的应用程序,用于开发分布式的互操作的应用程序,也是一种web服务 WebService的特性有以下几点: 1.使用XML(标准通用标记语言)来作为数据交互 ...
win10 64 使用 visual studio 2017 搭建汇编开发环境
转自http://blog.csdn.net/sinat_27382047/article/details/70339455 插件 vs2015的汇编语法高亮插件(安装就行)这玩意找了我很久= = h ...

Beautifulsoup关于find的测试

Beautifulsoup关于find的测试的更多相关文章

随机推荐

热门专题