爬虫实战_爬取豆瓣图书利用csv库存储

读取csv文件

通过csv.reader()和DictReader()两个函数

reader()函数返回一个迭代器会包含表头通过next函数可以跳过，但是它只能通过下标访问数据；

DictReader()函数返回一个字典，不包含表头，可以通过键名访问！！



import csv

# with open('1 (2).csv','r') as fp:

#     reader=csv.reader(fp)

#     # next(reader)

#     for x in reader:

#         print(x)

with open('1 (2).csv','r') as fp:

    reader=csv.DictReader(fp)

    for i in reader:

        print(i['学生姓名'])

写入csv文件

两个方法：一个通过writer()函数一个通过Dictwriter()函数。

writerow() writerows()

都是先将文件通过上面两个函数封装成对象，然后在对csv对象进行操作。

注意Dictwriter()有两个参数一个是文件，另一个是表头(列表)，先调用writeheader()函数将表头写进去。

这两个函数都可以写入，看给的数据：如果是元组用第一个函数；给的是字典用第二个函数。

项目

项目说明：爬取豆瓣图片前十页，并用csv库存储下来。

代码如下：

import requests

import csv

from bs4 import BeautifulSoup

header={

    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"

}

headers=['书名','相关信息','评分']

def spdier(url):

    resp=requests.get(url,headers=header)

    text=resp.text

    html=BeautifulSoup(text,"lxml")

    # print(html.prettify())

    alist=html.find_all('a',class_='title')

    titles=[]

    for a in alist:

        title=list(a.stripped_strings)[0]

        titles.append(title)

    infolist=html.find_all('div',class_='desc')

    infos=[]

    for info in infolist:

        info1=list(info.stripped_strings)[0]

        infos.append(info1)

    ratelist=html.find_all('span',class_='rating_nums')

    rates=[]

    for i in ratelist:

        rate=list(i.stripped_strings)[0]

        rates.append(rate)

    books=[]

    for i in range(len(rates)):

        book={

            '书名':titles[i],

            '相关信息':infos[i],

            '评分':rates[i]

        }

        books.append(book)

    return books

def csv_storage(list_books,filename):

    with open(filename,'w',encoding='utf-8',newline='') as fp:

        writer=csv.DictWriter(fp,headers)

        writer.writeheader()

        writer.writerows(list_books)

def main():

    base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"

    books=[]

    for i in range(0,136,15):

        url=base_url.format(i)

        book=spdier(url)

        books +=book

    csv_storage(books,'豆瓣图片.csv')

if __name__ == '__main__':

    main()

总结

今天学习了csv库存储爬取下来的数据，通过这个项目巩固了学习的内容。

爬虫实战_爬取豆瓣图书利用csv库存储的更多相关文章

python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
requests+正则爬取豆瓣图书
#requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...
爬虫之爬取豆瓣图书名字及ID
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen(' ...
爬虫实战——Scrapy爬取伯乐在线所有文章
Scrapy简单介绍及爬取伯乐在线所有文章一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

PyCharm安装及汉化设置为中文（附汉化包）
下载:https://www.jetbrains.com/pycharm/download/#section=windows 下载社区版免费双击运行安装程序 Next 选择安装路径安装创建桌面快捷 ...
UITextField的内存泄漏问题
背景: 项目中使用了Facebook的FBRetainCycleDetector框架检测内存泄漏问题. 登录VC的view中放置了一个UITextField对象. 产品的要求是当进入登录界面的时候,让 ...
高次arccos积分
\[\Large\displaystyle \int_0^{1} \frac{\arccos^4 \left(x^2\right)}{\sqrt{1-x^2}}\,\mathrm{d}x\] \(\L ...
树莓派实现SIM868 ppp拨号上网
环境:raspbian-stretch(2018-06-27) 树莓派:3代B型 SIM868模块具有GPRS数据传输功能(2G网络),但是模块是通过AT指令控制的,在树莓派上用AT指令控制会非常不方 ...
python manage.py shell
启动python有两种方式:python manage.py shell和python. 这两个命令都会启动交互解释器,但是manage.py shell命令有一个重要的不同: 在启动解释器之前,它 ...
DBC里首饰不同代码的含义
DuraMax"这个就是我们要找的物件持久的属性了,一开始怎么也找不到,原来这里的变量中 "1000"表示1个持久度,那么"40000"就表示40个持 ...
局域网内Linux下开启ftp服务的“曲折路”和命令复习
今天主要学习了Linux下网络配置以及vsftp(FTP)和samba的服务配置,学习起来,难度也就一般,并没有特别难,可是在可以做实验的时候,却并没有自己想像的那么顺利,可见,很多事情看起来不难,做 ...
Bugku-CTF加密篇之简单加密（e6Z9i~]8R~U~QHE{RnY{QXg~QnQ{^XVlRXlp^XI5Q6Q6SKY8jUAA）
简单加密 e6Z9i~]8R~U~QHE{RnY{QXg~QnQ{^XVlRXlp^XI5Q6Q6SKY8jUAA
win10使用L2TP连接失败，报远程服务器未响应错误解决办法，亲测可用！
报错如下: 原因是L2TP连接需要IPSec加密,远程服务器未响应说明IPSec加密被禁用了,需要在注册表启用它,具体步骤如下: 1.以管理员账号身份打开CMD,win10 是 win+x键 2.找到 ...
PW数据库ER图

爬虫实战_爬取豆瓣图书利用csv库存储

读取csv文件

写入csv文件

项目

总结

爬虫实战_爬取豆瓣图书利用csv库存储的更多相关文章

随机推荐

热门专题