python 爬取文章后存储excel 以及csv

import requests

from bs4 import BeautifulSoup

import random

import openpyxl

xls=openpyxl.Workbook()

sheet=xls.active

sheet.title='movies'

sheet['A1']='序号'

sheet['B1']='名称'

sheet['C1']='评分'

sheet['D1']='推荐语'

sheet['E1']='链接'

for i in range(11):

    params={

        'start': str(i*25),

        'filter':''

    }

    headers={

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'

    }

    url='https://movie.douban.com/top250'

    res=requests.get(url,params=params,headers=headers)

    con=res.text

    soup=BeautifulSoup(con,'html.parser')

    maindiv=soup.find(class_="grid_view")

    for titles in maindiv.find_all('li'):

        try:

            num = titles.find('em',class_="").text

            #查找序号

            title = titles.find('span', class_="title").text

            #查找电影名

            tes = titles.find('span',class_="inq").text

            #查找推荐语

            comment = titles.find('span',class_="rating_num").text

            #查找评分

            url_movie = titles.find('a')['href']

            print(num + '.' + title + '——' + comment + '\n' + '推荐语：' + tes +'\n' + url_movie)

            sheet.append([num,title,comment,tes,url_movie])

        except:

            continue

xls.save('douban.xlsx')

csv:

import requests

from bs4 import BeautifulSoup

import random

import openpyxl

import csv

url="https://www.zhihu.com/api/v4/members/zhang-jia-wei/articles"

headers={

    'referer': 'https://www.zhihu.com/people/zhang-jia-wei/posts/posts_by_votes?page=1',

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'

}

csv_file=open('dazhangwei.csv','w',newline='',encoding='utf-8')

writer=csv.writer(csv_file)

header=['标题','简介','连接']

writer.writerow(header)

x=0

while True:

    params={

        'include': 'data[*].comment_count,suggest_edit,is_normal,thumbnail_extra_info,thumbnail,can_comment,comment_permission,admin_closed_comment,content,voteup_count,created,updated,upvoted_followees,voting,review_info,is_labeled,label_info;data[*].author.badge[?(type=best_answerer)].topics',

        'offset': str((x*10)),

        'limit': '10',

        'sort_by': 'voteups'

    }

    res=requests.get(url,headers=headers,params=params)

    res_json=res.json()

    con=res_json['data']

    for i in con:

        lists=[i['title'],i['url'],i['excerpt']]

        writer.writerow(lists)

    if res_json['paging']['is_end'] == True:

        break

    x+=1

csv_file.close()

python 爬取文章后存储excel 以及csv的更多相关文章

Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
python 爬取文章
这里我们利用强大的python爬虫来爬取一篇文章.仅仅做一个示范,更高级的用法还要大家自己实践. 好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/a ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
Python爬取新浪微博评论数据，写入csv文件中
因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...
用Python爬取文章，并转PDF格式电子书
wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的获取文章内容代码 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF) 发送请求, ...
python爬取旅游数据+matplotlib简单可视化
题目如下: 共由6个函数组成: 第一个函数爬取数据并转为DataFrame: 第二个函数爬取数据后存入Excel中,对于解题来说是多余的,仅当练手以及方便核对数据: 后面四个函数分别对应题目中的四个m ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...

随机推荐

pwn学习日记Day18 《程序员的自我修养》读书笔记
知识杂项 obj文件:当前源代码编译成二进制目标文件 exe文件:将.obj文件与库文件.lib等文件链接生成的可执行文件一个现代编译器的主要工作流程如下: 源程序(source code)→ 预处 ...
Vue —— 从环境搭建到发布
之前学习 Vue 的时候也是按着别人的文档一步步下载安装构建项目再运行,为了避免忘记步骤,所以还是记在这吧. 参考链接: https://www.zybuluo.com/xudongh/note/75 ...
Qt编写安防视频监控系统5-视频回放
一.前言一般视频回放都会采用GB28181国标来处理,这样可以保证兼容国内各大厂家的NVR,毕竟在同一的国家标准下,大家都会统一支持国标的,就不需要根据各个厂家的SDK来做兼容处理,烦得很,厂家越来 ...
Qt编写数据可视化大屏界面电子看板4-布局另存
一.前言布局另存是数据可视化大屏界面电子看板系统中的额外功能之一,主要用于有时候用户需要在现有布局上做个微调,然后直接将该布局另存为一个布局配置文件使用,可以省略重新新建布局重新来一次大的调整的工作 ...
JAVA 基础编程练习题38 【程序 38 求字符串长度】
38 [程序 38 求字符串长度] 题目:写一个函数,求一个字符串的长度,在 main 函数中输入字符串,并输出其长度. package cskaoyan; public class cskaoyan ...
keytool命令的使用
## 打印所有证书指纹.如果是cacerts,则指本机安装的jdk的key store:如果是一个jks文件,则是其他key store keytool -list -keystore <cac ...
selenium+python自动化测试-环境搭建
firefox浏览器打不开的解决办法: 1.确认将geckodriver拷贝到Firefox安装目录 2.将安装目录添加到Windows的path里 3.重启IDE
Jmeter 逻辑控制器之 Switch Controller
一.认识 Switch Controller Switch Controller:开关控制器,通过其下样例顺序数值或名称控制执行某一个样例二.通过样例顺序数值控制执行样例三.通过样例名称控制 ...
【ABAP系列】SAP ABAP BAPI_REQUISITION_CREATE创建采购申请
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP BAPI_RE ...
http与https的主要区别
HTTP与HTTPS的主要区别如下: 1.https协议需要到ca申请证书,一般免费证书较少,因而需要一定费用. 2.http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输 ...

python 爬取文章后存储excel 以及csv

python 爬取文章后存储excel 以及csv的更多相关文章

随机推荐

热门专题