Python爬虫_豆瓣电视剧

 1 import requests

 2 import json

 3 import csv

 4

 5

 6 class DoubantvSpider:

 7     def __init__(self):

 8         # self.proxies = {"http":"http://125.123.152.81:3000"}

 9         self.url = "https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=rank&page_limit=20&page_start={}" # 手机模式下国产剧请求网址

10         self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}

11

12     # 发送请求，获得json，转化为字典

13     def parse_url(self, url):

14         res = requests.get(url, headers=self.headers)

15         return json.loads(res.content.decode())

16

17     # 保存数据

18     def save(self, dic):

19         with open("doubantv.csv", "a", newline='', encoding="utf8") as f:

20             for data in dic["subjects"]:

21                 writer = csv.writer(f, delimiter=',')

22                 writer.writerow([data["rate"], data["title"], data["url"]])

23

24     # 实现主要逻辑

25     def run(self):

26         page_num = 0

27         while True:

28             # 构造url

29             url = self.url.format(page_num)

30             # 发送请求,获取响应

31             dic = self.parse_url(url)

32             # 因为动态加载,通过判断每页电视剧数量来确定是不是到了尾页

33             if len(dic["subjects"]) < 20:

34                 break

35             self.save(dic)

36             page_num += 20

37             print("ok")

38

39

40 if __name__ == "__main__":

41     doubantv = DoubantvSpider()

42     doubantv.run()

Python爬虫_豆瓣电视剧的更多相关文章

Springboot+JPA下实现简易爬虫：豆瓣电视剧数据
Springboot+JPA下实现简易爬虫:豆瓣电视剧数据前言:今天听到产品那边讨论一些需求,好像其中一点是用户要求我们爬虫,在网页上抓取一些数据然后存到我们公司数据库中,众所周知,爬虫的实现对于p ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示
最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改原文链接 http://python.jobbole.com/88325/#comment-9 ...
Python爬虫之豆瓣-新书速递-图书解析
1- 问题描述抓取豆瓣“新书速递”[1]页面下图书信息(包括书名,作者,简介,url),将结果重定向到txt文本文件下. 2- 思路分析[2] Step1 读取HTML Step2 Xpath遍历元 ...
Python爬虫(一)——豆瓣下图书信息
爬虫目的: 随着近年互联网的发展,网络上的信息飞速数量增长.在庞大的数据面前想要获得期望的信息往往如同大海捞针.通过合理的筛选,在百万甚至数亿计的数据中找到所需信息,无疑有着非常大的意义. 在豆瓣网下 ...
python爬虫_入门_翻页
写出来的爬虫,肯定不能只在一个页面爬,只要要爬几个页面,甚至一个网站,这时候就需要用到翻页了其实翻页很简单,还是这个页面http://bbs.fengniao.com/forum/10384633. ...
python爬虫_入门
本来觉得没什么可写的,因为网上这玩意一搜一大把,不过爬虫毕竟是python的一个大亮点,不说说感觉对不起这玩意基础点来说,python2写爬虫重点需要两个模块,urllib和urllib2,其实还有r ...
【转】Python爬虫_示例2
爬虫项目:爬取并筛选拉钩网职位信息自动提交简历一目标站点分析 #一:实验前准备: 浏览器用Chrome 用Ctrl+Shift+Delete清除浏览器缓存的Cookie 打开network准备 ...
【转】Python爬虫_示例
爬虫项目:爬取汽车之家新闻资讯 # requests+Beautifulsoup爬取汽车之家新闻 import requests from bs4 import BeautifulSoup res ...

随机推荐

Redis-设置Key的过期时间及相关策略
Redis-设置Key的过期时间及相关策略 1.设置key的过期时间 1.1expire key second:设置key的过期时间(秒) 1.2ttl key:查看key的有效期 1.3persis ...
CentOS 安装TFTP
1.当然是使用yum安装最直接,一共会安装3个东东tftp.i386tftp-server.i386xinetd.i386[root@localhost CentOS]# yum -y install ...
UML——交互图（序列图+协作图）
交互图(interaction diagram):是协作图=通信图UML2.0以后的叫法=合作图=(Collaboration /Communication Diagram)以及序列图=顺序图=时序图 ...
pythonchallenge总述
Pythonchallenge是一个过关式的解谜站点,使用的是经典在线解谜站点Not Pr0n的模式:根据提示找出下一关的网页地址.和Not Pr0n不同的是,在每一关里你都需要编写程序来寻找答案.虽 ...
Flink-v1.12官方网站翻译-P029-User-Defined Functions
用户自定义函数大多数操作都需要用户定义的函数.本节列出了如何指定这些函数的不同方法.我们还涵盖了累加器,它可以用来深入了解您的Flink应用. Lambda函数在前面的例子中已经看到,所有的操作都 ...
Flink-v1.12官方网站翻译-P026-State Backends
状态后台 Flink提供了不同的状态后端,指定状态的存储方式和位置. 状态可以位于Java的堆上或离堆.根据你的状态后端,Flink还可以为应用程序管理状态,这意味着Flink处理内存管理(必要时可能 ...
HDU 3605 Escape 最大流
题意: 如果这是2012年世界末日怎么办?我不知道该怎么做.但是现在科学家们已经发现,有些星球上的人可以生存,但有些人却不适合居住.现在科学家们需要你的帮助,就是确定所有人都能在这些行星上生活.输入多 ...
如何安装Gephi工具
gephi中文版是一款开源免费跨平台基于JVM的复杂网络分析软件,安装后需要安装Java jdk API,否则就会出现gephi打不开的情况该工具主要用于各种网络和复杂系统,动态和分层图的交互可视化 ...
ssh配置方面小实验①
注意:sshd_config配置文件有些特殊:注释掉的选项,并不是不生效的,而是默认生效选项.使用某选项时,要先取消注释,再修改为yes或no关于效率和安全的说明:安全:telnet < ssh ...
woj1005-holding animals-01pack woj1006-Language of animals-BFS
title: woj1005-holding animals-01pack date: 2020-03-05 categories: acm tags: [acm,woj,pack] 01背包.中等题 ...

Python爬虫_豆瓣电视剧

Python爬虫_豆瓣电视剧的更多相关文章

随机推荐

热门专题