爬取豆瓣电影信息保存到Excel

 from bs4 import BeautifulSoup

 import requests

 import html.parser

 from openpyxl import Workbook,load_workbook

 import os

 class DouBan(object):

     def __init__(self):

         self.url = 'https://movie.douban.com/'

         self.header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}

     def openUrl(self, url):

         response = requests.get(url,headers=self.header)

         return response

     def getUrl(self):

         response = self.openUrl(self.url)

         douban_html = response.text

         # print(douban_html)

         soup = BeautifulSoup(douban_html,'html.parser')

         hrefs = soup.select("li.poster > a")

         return hrefs

         # for href in hrefs:

         #     print(href['href']

     def getMsg(self):

         hrefs = self.getUrl()

         for num,href in enumerate(hrefs):

             msg_list = []

             print(href['href'])

             response = self.openUrl(href['href'])

             html_mover = response.text

             soup = BeautifulSoup(html_mover,'html.parser')

             all_info = soup.select('div#content')

             # print(all_info)

             title = all_info[0].select('h1')[0].text.replace('\n','')

             msg_list.append(title)

             # print(title)

             info = all_info[0].select('#info')[0].text

             msg_list.append(info)

             # print(info)

             describe = all_info[0].select('div#link-report span')[0].text.replace(' ','')

             msg_list.append(describe)

             # print(describe)

             # return title,info,describe

             for col in range(3):

                 self.saveMsg(num+1, col+1,  msg_list[col])

     def saveMsg(self, row_, column_,msg):

         # msg = self.getMsg()

         # a = os.path.exists('//move_msg.xlsx')

         # if a=False:

         #     os.mkdir('move_msg.xlsx')

         wb = load_workbook('move_msg.xlsx')

         sheet = wb.active

         sheet.cell(row=row_, column=column_).value = msg

         wb.save('move_msg.xlsx')

 if __name__ == "__main__":

     db = DouBan()

     db.getMsg()

爬取豆瓣电影信息保存到Excel的更多相关文章

python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
scrapy爬取豆瓣电影信息
最近在学python,对python爬虫框架十分着迷,因此在网上看了许多大佬们的代码,经过反复测试修改,终于大功告成! 原文地址是:https://blog.csdn.net/ljm_9615/art ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...

随机推荐

C++设计模式之代理模式
IPhone 6已经在中国香港开售了,圆了在专卖店等候一个多月苹果粉丝的苹果梦.然而对中国大陆而言.须要到9月17日苹果才在大陆开售.这对中国大陆的粉丝而言,不亚于一种煎熬,因此而滋生一种代购 ...
php类库PHP QR Code 二维码
php类库PHP QR Code 二维码 php类库PHP QR Code 二维码 php类库PHP QR CodePHP QR Code is open source (LGPL) library ...
layui实现table表格的“关键字搜索”功能
$('#searchBtn').on('click',function(){ var type = $(this).data('type'); active[type] ? active[type]. ...
SQL中使用视图的优点和缺点是什么
视图的优点与缺点在程序设计的时候必须先了解视图的优缺点,这样可以扬长避短,视图具有如下的一些优点: ● 简单性.视图不仅可以简化用户对数据的理解,也可以简化他们的操作.那些被经常使用的查询可以被定义 ...
这是一篇markdown测试博客
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法代码块高亮图片链接 ...
Mysql 变量讲解
set语句的学习: 使用select定义用户变量的实践将如下语句改成select的形式: set @VAR=(select sum(amount) from penalties);我的修改: sele ...
Java HashMap中在resize()时候的rehash,即再哈希法的理解
HashMap的扩容机制---resize() 虽然在hashmap的原理里面有这段,但是这个单独拿出来讲rehash或者resize()也是极好的. 什么时候扩容:当向容器添加元素的时候,会判断当前 ...
php windows 扩展redis
一:客户端安装redis (1)下载地址:https://github.com/dmajkic/redis/downloads 根据电脑是多少位的使用对应的文件,如我的是64bit,那么我就选择64b ...
Eclipse 透视图(Perspective)
什么是透视图? 透视图是一个包含一系列视图和内容编辑器的可视容器.默认的透视图叫 java. Eclipse 窗口可以打开多个透视图,但在同一时间只能有一个透视图处于激活状态. 用户可以在两个透视图之 ...
git Staging Deleted files
Use git rm foo to stage the file for deletion. (This will also delete the file from the file system, ...

爬取豆瓣电影信息保存到Excel

爬取豆瓣电影信息保存到Excel的更多相关文章

随机推荐

热门专题