爬去豆瓣图书top250数据存储到csv中

from lxml import etree

import requests

import csv

fp=open('C://Users/Administrator/Desktop/lianxi/doubanbook.csv','w+',newline='',encoding='utf-8')

writer=csv.writer(fp)

writer.writerow(('name','url','author','publisher','date','price','rate','comment'))

headers={

    #'User-Agent':'Nokia6600/1.0 (3.42.1) SymbianOS/7.0s Series60/2.0 Profile/MIDP-2.0 Configuration/CLDC-1.0'

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

}

urls=['https://book.douban.com/top250?start={}'.format(str(i))for i in range(0,50,25)]

for url in urls:

    html=requests.get(url,headers=headers)

    selector=etree.HTML(html.text)

    infos=selector.xpath('//tr[@class="item"]')

    for info in infos:

        name=info.xpath('td/div/a/@title')[0]

        url=info.xpath('td/div/a/@href')[0]

        book_infos=info.xpath('td/p/text()')[0]

        author=book_infos.split('/')[0]

        publisher=book_infos.split('/')[-3]

        date=book_infos.split('/')[-2]

        price=book_infos.split('/')[-1]

        rate=info.xpath('td/div/span[2]/text()')[0]

        comments=info.xpath('td/p/span/text()')

        comment=comments[0] if len(comments) != 0 else "空"

        writer.writerow((name,url,author,publisher,date,price,rate,comment))

fp.close()

爬去豆瓣图书top250数据存储到csv中的更多相关文章

Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...
Python爬虫-爬取豆瓣图书Top250
豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP.但也不要太频繁爬取. 涉及知识点:requests.html.xpath.csv 一.准备工作需要安装reques ...
实例学习——爬取豆瓣音乐TOP250数据
开发环境:(Windows)eclipse+pydev+MongoDB 豆瓣TOP网址:传送门一.连接数据库打开MongoDBx下载路径,新建名为data的文件夹,在此新建名为db的文件夹,d ...
实例学习——爬取豆瓣网TOP250数据
开发环境:(Windows)eclipse+pydev 网址:https://book.douban.com/top250?start=0 from lxml import etree #解析提取数据 ...
爬取豆瓣电影top250并存储到mysql数据库
import requests from lxml import etree import re import pymysql import time conn= pymysql.connect(ho ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
【Python数据分析】Python3操作Excel-以豆瓣图书Top250为例
本文利用Python3爬虫抓取豆瓣图书Top250,并利用xlwt模块将其存储至excel文件,图片下载到相应目录.旨在进行更多的爬虫实践练习以及模块学习. 工具 1.Python 3.5 2.Bea ...
【Python数据分析】Python3多线程并发网络爬虫-以豆瓣图书Top250为例
基于上两篇文章的工作 [Python数据分析]Python3操作Excel-以豆瓣图书Top250为例 [Python数据分析]Python3操作Excel(二) 一些问题的解决与优化已经正确地实现 ...

随机推荐

xgene：WGS，突变与癌，RNA-seq，WES
人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参 ...
eos管理页面
调用此方法删除需要在po_module_processdef添加数据如下默认情况下申请页面是有权限的但是在此表加过之后管理页面要打开拟稿页面还必须在系统管理页面(xtgl.jsp ) 分 ...
Spring Boot实现学生信息增删改查
上一篇博客写了如何初始化一个简单的Spring Boot项目,这次详细记录一下如何连接数据库并实现增删改查基本操作. 我使用的是MySQL 5.5+Navicat,MySQL量级比较轻,当然微软的SQ ...
HeapCreate
为进程创建新堆,请求分配虚拟内存分页,函数原型如下: HANDLE HeapCreate( DWORD flOptions, SIZE_T dwInitialSize, SIZE_T dwMaximu ...
http verbs--Method Definitions
http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html part of Hypertext Transfer Protocol -- HTTP/1. ...
JDBC的初步了解及使用
一.概念 1.什么是JDBC? JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由 ...
51nod1412(dp)
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1412 代码: #include <bits/stdc+ ...
poj1837 Balance
Balance POJ - 1837 题目大意: 有一个天平,天平左右两边各有若干个钩子,总共有C个钩子,有G个钩码,求将钩码全部挂到钩子上使天平平衡的方法的总数. 其中可以把天枰看做一个以x轴0点 ...
图论2 最近公共祖先LCA
模板吸取洛谷P3379的教训,我决定换板子(其实本质都是倍增是一样的),把vector换成了边表输入格式: 第一行包含三个正整数N.M.S,分别表示树的结点个数.询问的个数和树根结点的序号. 接下 ...
uoj#279. 【UTR #2】题目交流通道（容斥+数数）
传送门先考虑无解的情况,为以下几种:\(dis_{i,j}+dis_{j,k}<dis_{i,k}\),\(dis_{i,i}\neq 0\),\(dis_{i,j}\neq dis_{j,i ...

爬去豆瓣图书top250数据存储到csv中

爬去豆瓣图书top250数据存储到csv中的更多相关文章

随机推荐

热门专题