记一次python爬虫实战，豆瓣电影Top250爬虫

 import requests

 from bs4 import BeautifulSoup

 import re

 import traceback

 def GetHtmlText(url):

     for i in range(0,1):        #尝试两次

         try:

             r=requests.get(url)

             r.encoding = 'utf-8'

             r.raise_for_status();

             return r.text;

         except:

             traceback.print_exc()

             continue

     return 

 def GetMovieInfo(url):

     movieDict={}

     for page in range(0,10):

         try:

             page_url = '?start='+str(page*25)

             html = GetHtmlText(url+page_url)

             Soup = BeautifulSoup(html, 'html.parser')

             movie = Soup.find(name="ol",class_='grid_view') #所有电影信息

             movieList = movie.find_all(name='li')  #电影信息列表

             for single in movieList:        #循环单页的电影信息

                 num = single.find(name='em').string    #电影排名

                 title1 = single.find_all(name='span',class_='title')

                 title2 = single.find(name='span',class_='other').string

                 if len(title1)==2:

                     movieTitle = title1[0].string+title1[1].string+title2.string

                 else:

                     movieTitle = title1[0].string+title2.string

                 classBD = single.find(name='div',class_='bd').contents    #我也不知道为什么bs给我返回7个节点

                 movieActor = classBD[1].text

                 movieRating = re.findall(r'\d?\.\d?',str(classBD[3]))[0]

                 movieQuote = classBD[5].text

                 movieDict['num'] = num

                 movieDict['movieTitle'] = movieTitle

                 movieDict['actor'] = movieActor

                 movieDict['rating'] = movieRating

                 movieDict['quote'] = movieQuote

                 printMovieInfo(movieDict)

         except:

             traceback.print_exc()

 def printMovieInfo(Info):

     try:

         with open('/home/why/py/movieInfo.txt','a',encoding='utf-8') as f:

             f.write(str(Info['num']+Info['movieTitle']+'\n'+Info['actor']+'\n评分:'+Info['rating']+'\n评价：'+Info['quote']+'\n'))

     except:

         traceback.print_exc()

 def main():

     base_url = 'https://movie.douban.com/top250'

     GetMovieInfo(base_url)

 main()

结果：

记一次python爬虫实战，豆瓣电影Top250爬虫的更多相关文章

<爬虫实战>豆瓣电影TOP250（三种解析方法）
1.豆瓣电影排行.py # 目标:爬取豆瓣电影排行榜TOP250的电影信息 # 信息包括:电影名字,上映时间,主演,评分,导演,一句话评价 # 解析用学过的几种方法都实验一下①正则表达式.②Beaut ...
【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
[Python] 豆瓣电影top250爬虫
1.分析 <li><div class="item">电影信息</div></li> 每个电影信息都是同样的格式,毕竟在服务器端是用 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
爬虫实战豆瓣音乐top250 xpath
刷知乎时刷到一篇爬取豆瓣音乐top250的,然后看了看,感觉自己的爬虫又更上一层楼了哈啊哈哈,尤其是发现xpath这么好用的东西. 不过也有一个感慨,就是有很多种方式都可以获得想要的数据,对于入门的新 ...
Python 爬取豆瓣电影Top250排行榜，爬虫初试
from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...

随机推荐

初识Tarjan算法
#include<bits/stdc++.h> using namespace std; ; ;//强连通分量的个数 int stk[maxn];//暂时存放遍历过的点,在遇到low[x] ...
LG1600 天天爱跑步
题意分析对一个(s,t)查询,令f=lca(s,t),则操作可化为(s,f),(f,t). 考虑观察到的情况,若x在s到t的路径上,且x观察到,则 \[ \textrm{dep}_s-\textr ...
test20180907 day1
T1 256MB,1Sec T2 512MB,3Sec T3 512MB,1Sec 总分:150 试题一餐馆题目背景铜企鹅是企鹅餐馆的老板,他正在计划如何使得自己本年度收益增加. 题目描述共有 ...
struts神马的不过是对servlet、filter的封装而已，hibernate神马的也不过是对jdbc的封装而已，他们只是把一些常见的操作流程化了，如果不懂servlet、filter，不懂jdbc，使用struts和hibernate出问题了都不知道是怎么回事。
struts神马的不过是对servlet.filter的封装而已,hibernate神马的也不过是对jdbc的封装而已,他们只是把一些常见的操作流程化了,如果不懂servlet.filter,不懂jd ...
Selenium（ThoughtWorks公司开发的web自动化测试工具）
Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7.8.9).Mozilla Firefox.Mozill ...
Mysql ON子句和USING子句
Mysql ON子句和USING子句 Mysql 中联接SQL语句中,ON子句的语法格式为:table1.column_name = table2.column_name. 当模式设计对联接表的列 ...
linux系统的启动过程及系统初始化
(其中/etc/inittab是一个很重要的文件,值得细究http://www.2cto.com/os/201108/98426.html) 其开头的446字节内容特指为"主引导记录&quo ...
批处理(bat)命令学习的一些总结
这篇笔记是我对批处理学习的一些总结,能在系统帮助里找到的内容我就不写了,太偏门的也不写,只写些个人感觉很好用的技巧,大部分属于整理一.set 篇: 1.set(无开关) set .=test set ...
Linux下载
免费下载地址在 http://linux.linuxidc.com/ 用户名与密码都是www.linuxidc.com 下载方法见 http://www.linuxidc.com/Linux/2013 ...
【转】每天一个linux命令（20）：find命令之exec
原文网址:http://www.cnblogs.com/peida/archive/2012/11/14/2769248.html find是我们很常用的一个Linux命令,但是我们一般查找出来的并不 ...

记一次python爬虫实战，豆瓣电影Top250爬虫

记一次python爬虫实战，豆瓣电影Top250爬虫的更多相关文章

随机推荐

热门专题