爬取豆瓣电影信息保存到Excel

 from bs4 import BeautifulSoup

 import requests

 import html.parser

 from openpyxl import Workbook,load_workbook

 import os

 class DouBan(object):

     def __init__(self):

         self.url = 'https://movie.douban.com/'

         self.header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}

     def openUrl(self, url):

         response = requests.get(url,headers=self.header)

         return response

     def getUrl(self):

         response = self.openUrl(self.url)

         douban_html = response.text

         # print(douban_html)

         soup = BeautifulSoup(douban_html,'html.parser')

         hrefs = soup.select("li.poster > a")

         return hrefs

         # for href in hrefs:

         #     print(href['href']

     def getMsg(self):

         hrefs = self.getUrl()

         for num,href in enumerate(hrefs):

             msg_list = []

             print(href['href'])

             response = self.openUrl(href['href'])

             html_mover = response.text

             soup = BeautifulSoup(html_mover,'html.parser')

             all_info = soup.select('div#content')

             # print(all_info)

             title = all_info[0].select('h1')[0].text.replace('\n','')

             msg_list.append(title)

             # print(title)

             info = all_info[0].select('#info')[0].text

             msg_list.append(info)

             # print(info)

             describe = all_info[0].select('div#link-report span')[0].text.replace(' ','')

             msg_list.append(describe)

             # print(describe)

             # return title,info,describe

             for col in range(3):

                 self.saveMsg(num+1, col+1,  msg_list[col])

     def saveMsg(self, row_, column_,msg):

         # msg = self.getMsg()

         # a = os.path.exists('//move_msg.xlsx')

         # if a=False:

         #     os.mkdir('move_msg.xlsx')

         wb = load_workbook('move_msg.xlsx')

         sheet = wb.active

         sheet.cell(row=row_, column=column_).value = msg

         wb.save('move_msg.xlsx')

 if __name__ == "__main__":

     db = DouBan()

     db.getMsg()

爬取豆瓣电影信息保存到Excel的更多相关文章

python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
scrapy爬取豆瓣电影信息
最近在学python,对python爬虫框架十分着迷,因此在网上看了许多大佬们的代码,经过反复测试修改,终于大功告成! 原文地址是:https://blog.csdn.net/ljm_9615/art ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...

随机推荐

jq时间戳转化为可视化时间
//2016年5月21日 23:12:07 function getDateTimeToDate(dt){ var dateTime = new Date(dt); var date = dateTi ...
unity, change parent and keep localPosition or worlPosition
node.parent=othernode等价于node.setParent(othernode,true),是保持世界坐标不变. node.setParent(othernode,false)则可以 ...
Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）
Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作 ...
.align
.align的作用是针对指令或数据的存放地址对齐.但不同的CPU架构,指令和数据的存储方式不同,也就导致对齐的计量单位不一样. i386:n对齐 ARM:2^n 对齐,ARM架构下,指令都是占32位, ...
hdu1695 GCD2 容斥原理求x属于[1,b]与y属于[1,d]，gcd(x,y)=k的对数。(5,7)与(7,5)看作同一对。
GCD Time Limit: / MS (Java/Others) Memory Limit: / K (Java/Others) Total Submission(s): Accepted Sub ...
配置LANMP环境（4）-- 安装MYSQL与安装相关软件，配置
一.安装MySQL 5.7 1.下载配置与安装 cd ~ wget http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm ...
linux 个人测试用例
1. 我想在某个目录下, 找到某个文件中有某个字符(leon)的文件, 并列出来? (如果是在windows下, 可能需要一个文件一个文件的看, 但是在 linux 下可以实现) find . –ma ...
php 获取当前域名
#测试网址: http://localhost/blog/testurl.php?id=5 //获取域名或主机地址 echo $_SERVER['HTTP_HOST']."<br> ...
JS常用的方法总结
/** * 将参数格式化为对象 * @param urlParams type string * @example * let urlParams = 'name="xiaoliu" ...
(转载)Unity3D研究院之使用 C#合成解析XML与JSON（四十一）
XML与JSON在开发中非常重要, 其实核心就是处理字符串.一个是XML的字符串一个是JSON的字符串,尤其是在处理网络请求的时候,肯定是要用的.另外现在JSON非常的流行,我写了一个简单的例子融合了 ...

爬取豆瓣电影信息保存到Excel

爬取豆瓣电影信息保存到Excel的更多相关文章

随机推荐

热门专题