Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演

结果输出到文本文件中。

 import codecs

 import requests

 from bs4 import BeautifulSoup

 headers={'User-Agent': 'Mozilla/5.0'}

 index_url = 'https://movie.douban.com/top250'

 def get_html(url):

     html = requests.get(url, headers=headers).text

     return html

 def create_list(html):

     soup = BeautifulSoup(html, 'lxml')

     movie_names = []

     movie_info = []

     for t in soup.find_all('div', 'hd'):

         name = t.find('span', 'title').get_text()

         movie_names.append(name)

     for t in soup.find_all('div', 'info'):

         info = t.find('p').get_text().replace(' ','')

         movie_info.append(info)

     next_page = soup.find('span', 'next').find('a')

     if next_page:

         return movie_names, movie_info, index_url + next_page['href']

     else:

         return movie_names, movie_info, None

 def main():

     order = 1

     url = index_url

     with codecs.open('top250.txt', 'wb', encoding='utf-8') as f:

         while url:

             html = get_html(url)

             names, info, url = create_list(html)

             for n in range(25):

                 f.write('Top ' + str(order) + ' ' + names[n] + '\r\n')

                 f.write(info[n] + '\r\n')

                 order = order + 1

 if __name__ == '__main__':

     main()

Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演的更多相关文章

【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...
python爬虫---豆瓣Top250电影采集
代码: import requests from bs4 import BeautifulSoup as bs import time def get_movie(url): headers = { ...
Python爬虫-豆瓣电影 Top 250
爬取的网页地址为:https://movie.douban.com/top250 打开网页后,可观察到:TOP250的电影被分成了10个页面来展示,每个页面有25个电影. 那么要爬取所有电影的信息,就 ...
Python实战：Python爬虫学习教程，获取电影排行榜
Python应用现在如火如荼,应用范围很广.因其效率高开发迅速的优势,快速进入编程语言排行榜前几名.本系列文章致力于可以全面系统的介绍Python语言开发知识和相关知识总结.希望大家能够快速入门并学习 ...
一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...
Python 爬虫-豆瓣读书
import requests from bs4 import BeautifulSoup def parse_html(num): headers = { 'User-Agent': 'Mozill ...
python爬虫: 豆瓣电影top250数据分析
转载博客 https://segmentfault.com/a/1190000005920679 根据自己的环境修改并配置mysql数据库系统:Mac OS X 10.11 python 2.7 m ...
python爬虫-豆瓣电影的尝试
一.背景介绍 1. 使用工具 Pycharm 2. 安装的第三方库 requests.BeautifulSoup 2.1 如何安装第三方库 File => Settings => Proj ...
python 爬虫豆瓣top250
网页api:https://movie.douban.com/top250?start=0&filter= 用到的模块:urllib,re,csv 捣鼓一上午终于好了,有些小问题 (top21 ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...

随机推荐

Add-AppxProvisionedPackage
原文: Add-AppxProvisionedPackage Adds an app package (.appx) that will install for each new user to a ...
UWP开发：获取用户当前所在的网络环境（WiFi、移动网络、LAN…）
原文:UWP开发:获取用户当前所在的网络环境(WiFi.移动网络.LAN-) UWP开发:获取用户当前所在的网络环境: 在uwp开发中,有时候,我们需要判断用户所在的网络,是WiFi,还是移动网络,给 ...
Windows窗体原理及控件WM_DRAWITEM和子类化重绘演示文件
http://download.csdn.net/detail/wenzhou1219/6783959
剖析Qt的事件机制原理（源代码级别）
在用Qt写Gui程序的时候,在main函数里面最后依据都是app.exec();很多书上对这句的解释是,使Qt程序进入消息循环.下面我们就到exec()函数内部,来看一下他的实现原理.Let's go ...
SYN011型 B码时统
SYN011型 B码时统产品概述 SYN011型B码时统是由西安同步电子科技有限公司精心设计.自行研发生产的一款专用时统设备,从GPS/北斗卫星上/和外部输入的IRIG-B码获取标准时钟信号信 ...
AI行为树的工作原理
很久没写博客了,最近在项目刚部署到测试服,需要进行压测,老大相当专业的用了行为树来组织压测机器人的代码,这段时间陆陆续续在网上看了不少关于行为树的文章,其中有一篇我觉得写得非常到位,它原文是英文,链接 ...
转：Mongoose使用操作
一般我们不直接用MongoDB的函数来操作MongoDB数据库 Mongose就是一套操作MongoDB数据库的接口. 连接数据库 // mongoose 链接var mongoose = req ...
Vue.js 是如何实现 MVVM 的？
目录框架到底为我们做了什么? 如何理解 MVVM ? 如何实现 MVVM - 以 Vue.js 为例 Vue 如何实现响应式 Vue 如何解析模板 Vue.js 运行机制手写一个 Vue.js 框 ...
springboot 集成完整的swagger2
springboot 在集成swagger中会不会遇到各种问题: 1.swagger 进行接口鉴权(比如设置header的token,接口进行拦截处理). 2.swagger 进行实体属性解析(po ...
Spring ——表达式语言 Spring Expression Language （转载）
目录 SpEL简介与功能特性一.为什么需要Spring表达式语言二.SpEL表达式Hello World! 三.SpEL表达式 3.1.文字表达式 3.2.SPEL语言特性 3.2.1.属性 3. ...

Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演

Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演的更多相关文章

随机推荐

热门专题