读取csv文件

通过csv.reader()和DictReader()两个函数

reader()函数返回一个迭代器 会包含表头 通过next函数可以跳过,但是它只能通过下标访问数据;

DictReader()函数返回一个字典,不包含表头,可以通过键名访问!!


import csv
# with open('1 (2).csv','r') as fp:
#     reader=csv.reader(fp)
#     # next(reader)
#     for x in reader:
#         print(x)
with open('1 (2).csv','r') as fp:
    reader=csv.DictReader(fp)
    for i in reader:
        print(i['学生姓名'])

写入csv文件

两个方法:一个通过writer()函数 一个通过Dictwriter()函数。

writerow() writerows()

都是先将文件通过上面两个函数封装成对象,然后在对csv对象进行操作。

注意Dictwriter()有两个参数一个是文件,另一个是表头(列表),先调用writeheader()函数将表头写进去。

这两个函数都可以写入,看给的数据:如果是元组用第一个函数;给的是字典用第二个函数。


项目

项目说明:爬取豆瓣图片前十页,并用csv库存储下来。

代码如下:

import requests
import csv
from bs4 import BeautifulSoup
header={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36"
}
headers=['书名','相关信息','评分']
def spdier(url):
    resp=requests.get(url,headers=header)
    text=resp.text
    html=BeautifulSoup(text,"lxml")
    # print(html.prettify())
    alist=html.find_all('a',class_='title')
    titles=[]
    for a in alist:
        title=list(a.stripped_strings)[0]
        titles.append(title)
    infolist=html.find_all('div',class_='desc')
    infos=[]
    for info in infolist:
        info1=list(info.stripped_strings)[0]
        infos.append(info1)
    ratelist=html.find_all('span',class_='rating_nums')
    rates=[]
    for i in ratelist:
        rate=list(i.stripped_strings)[0]
        rates.append(rate)
    books=[]
    for i in range(len(rates)):
        book={
            '书名':titles[i],
            '相关信息':infos[i],
            '评分':rates[i]
        }
        books.append(book)
    return books
def csv_storage(list_books,filename):
    with open(filename,'w',encoding='utf-8',newline='') as fp:
        writer=csv.DictWriter(fp,headers)
        writer.writeheader()
        writer.writerows(list_books)
def main():
    base_url="https://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/book?start={}"
    books=[]
    for i in range(0,136,15):
        url=base_url.format(i)
        book=spdier(url)
        books +=book
    csv_storage(books,'豆瓣图片.csv')
if __name__ == '__main__':
    main()

总结

今天学习了csv库存储爬取下来的数据,通过这个项目巩固了学习的内容。

爬虫实战_爬取豆瓣图书利用csv库存储的更多相关文章

  1. python网络爬虫之四简单爬取豆瓣图书项目

    一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...

  2. python系列之(3)爬取豆瓣图书数据

    上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...

  3. Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129

    大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...

  4. Python爬虫实战之爬取百度贴吧帖子

    大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...

  5. requests+正则爬取豆瓣图书

    #requests+正则爬取豆瓣图书 import requests import re def get_html(url): headers = {'User-Agent':'Mozilla/5.0 ...

  6. 爬虫之爬取豆瓣图书名字及ID

    from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen(' ...

  7. 爬虫实战——Scrapy爬取伯乐在线所有文章

    Scrapy简单介绍及爬取伯乐在线所有文章 一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...

  8. Python爬虫实例:爬取豆瓣Top250

    入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

  9. Python爬虫入门:爬取豆瓣电影TOP250

    一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...

随机推荐

  1. 【代码学习】PYTHON装饰器

    一.装饰器 对原代码不修改的基础上完善代码 写代码要遵循开放封闭原则,虽然在这个原则是用的面向对象开发,但是也适用于函数式编程,简单来说,它规定已经实现的功能代码不允许被修改,但可以被扩展,即: 封闭 ...

  2. java篇 之 数组

    数组:本身也是对象元素数据类型必须一致,初始值为各种零(跟类型一致),数组中存放 的是对象的引用(地址),对象在其它空间,一旦创建长度不可变,length可以直 接访问 (new的时候才分配空间,创建 ...

  3. Groovy脚本-通用SQL开关

    备注:使用Groovy语言进行编写,看不懂的同学请先了解Groovy脚本. Groovy学习地址:https://www.cnblogs.com/tiechui2015/p/10828457.html ...

  4. 排序算法之冒泡排序的python实现

    冒泡排序算法的工作原理如下: 1.  比较相邻的元素.如果第一个比第二个大(升序),就交换他们两个. 2.  对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对.这步做完后,最后的元素会是最大 ...

  5. 关于umask的计算方式(简单任性)

    1.对于文件夹[d]来说  用755-umask 3.对与文件[f]来说,在2的基础上减掉x属性就完事儿(有x的,减掉1,没有的,就什么也不管) 再来个手绘版本的举例

  6. .NET Core快速入门教程 3、使用VS Code开发.NET Core控制台应用程序

    一.前言 本篇开发环境 1.操作系统: Windows 10 X642.SDK: .NET Core 2.0 Preview3.VS Code:1.14 二.安装&配置 1.VS Code下载 ...

  7. SVM的优缺点

    优点 可用于线性/非线性分类,也可以用于回归,泛化错误率低,也就是说具有良好的学习能力,且学到的结果具有很好的推广性. 可以解决小样本情况下的机器学习问题,可以解决高维问题,可以避免神经网络结构选择和 ...

  8. left join 、right join 和inner join之间的区别

    SQL的left join .right join 和inner join之间的区别 left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录  right join(右联接) ...

  9. windows 删除进程

    win+R打开doc窗口 netstat -ano |findstr "8888" tskill 10120   结束进程

  10. 配置 DNS

    配置 DNS 如何自定义配置容器的主机名和 DNS 呢?秘诀就是 Docker 利用虚拟文件来挂载容器的 3 个相关配置文件. 在容器中使用 mount 命令可以看到挂载信息: $ mount /de ...