爬虫实战_爬取豆瓣图书利用csv库存储
读取csv文件
通过csv.reader()和DictReader()两个函数
reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;
DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!
import csv
# with open('1 (2).csv','r') as fp:
# reader=csv.reader(fp)
# # next(reader)
# for x in reader:
# print(x)
with open('1 (2).csv','r') as fp:
reader=csv.DictReader(fp)
for i in reader:
print(i['学生姓名'])
写入csv文件
两个方法:一个通过writer()函数 一个通过Dictwriter()函数。
writerow() writerows()
都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。
注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。
这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。
项目
项目说明:爬取豆瓣图片前十页,并用csv库存储下来。
代码如下:
import requests
import csv
from bs4 import BeautifulSoup
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
}
headers=['书名','相关信息','评分']
def spdier(url):
resp=requests.get(url,headers=header)
text=resp.text
html=BeautifulSoup(text,"lxml")
# print(html.prettify())
alist=html.find_all('a',class_='title')
titles=[]
for a in alist:
title=list(a.stripped_strings)[0]
titles.append(title)
infolist=html.find_all('div',class_='desc')
infos=[]
for info in infolist:
info1=list(info.stripped_strings)[0]
infos.append(info1)
ratelist=html.find_all('span',class_='rating_nums')
rates=[]
for i in ratelist:
rate=list(i.stripped_strings)[0]
rates.append(rate)
books=[]
for i in range(len(rates)):
book={
'书名':titles[i],
'相关信息':infos[i],
'评分':rates[i]
}
books.append(book)
return books
def csv_storage(list_books,filename):
with open(filename,'w',encoding='utf-8',newline='') as fp:
writer=csv.DictWriter(fp,headers)
writer.writeheader()
writer.writerows(list_books)
def main():
base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
books=[]
for i in range(0,136,15):
url=base_url.format(i)
book=spdier(url)
books +=book
csv_storage(books,'豆瓣图片.csv')
if __name__ == '__main__':
main()
总结
今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。
爬虫实战_爬取豆瓣图书利用csv库存储的更多相关文章
- python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
- python系列之(3)爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
- Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
- Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...
- requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
- 爬虫之爬取豆瓣图书名字及ID
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen(' ...
- 爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章 一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
- Python爬虫实例:爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
- Python爬虫入门:爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
随机推荐
- 全局下的isFinite
isFinite() 函数用于检查其参数是否是无穷大 1. 他是一个全局对象,可以在js代码中直接使用 2. isFinite() 函数用于检查其参数是否是无穷大. 3. 如果 number 是有限 ...
- java知识树
https://blog.csdn.net/aitaozi11/article/details/79652943 (学习Java的9张思维导图) 文章目录 针对技术栈学习 1. java基础 1.1 ...
- denied: requested access to the resource is denied 解决办法
往 dockerhub 上 push 本地镜像的时候 出现了下面这个提示: denied: requested access to the resource is denied 解决办法: 在 dod ...
- pipreqs (找当前项目依赖的包)
pipreqs pipreqs可以帮你找到当前项目的所有组件及其版本.就是当别人给你一个程序的时候,你要在自己电脑上运行起来,就需要安装程序所依赖的组件,总不能自己一个一个找吧. # 安装 pip3 ...
- Raid5(五块磁盘,三块做raid,两块做备份)
1.在虚拟中再添加五块磁盘. 2.使用mdadm命令创建raid5,名称为“/dev/md5”. -C代表创建操作,-v显示创建过程,-a yes检查RAID名称,-n是用到的硬盘个数,-l是定义R ...
- HDU 1241 Oil Deposits(经典DFS)
嗯... 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1241 很经典的一道dfs,但是注意每次查到一个@之后,都要把它变成“ * ”,然后继续dfs ...
- docker - 启动不了docker服务
原因 因为docker是CS架构,Server方要配置好源,客户端才能连接,服务才能开启 解决办法 1.切换到root用户,su root.. 2.sudo vim /etc/docker/daemo ...
- SpringBoot2.x过后static下的静态资源无法访问
@Configuration public class CorsConfig extends WebMvcConfigurationSupport {/** * 添加静态资源文件,外部可以直接访问地址 ...
- pdf.js的使用(1) 站在巨人的肩膀上纯干货分享,没有华丽的词藻
以下是我在实际项目开发中的过程分享 前端是:vue+jsp 1.首先下载pdf.js(怎么下可以去百度),实在不会就私我,我发给你 1.1展示一哈我下载下来的pdf.js的目录结构 1.2接下来可 ...
- dom4j递归解析XML字符串所有子节点
/** * dom4j递归解析所有子节点 * * @param childElements * @param mapEle * @return */ public Map<String, Obj ...