豆瓣Top250

 """

 爬取豆瓣电影TOP250 - 完整示例代码

 """

 import codecs

 import requests

 from bs4 import BeautifulSoup

 DOWNLOAD_URL = 'http://movie.douban.com/top250/'

 def download_page(url):

     return requests.get(url, headers={

         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'

     }).content

 def parse_html(html):

     soup = BeautifulSoup(html)

     movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

     movie_name_list = []

     for movie_li in movie_list_soup.find_all('li'):

         detail = movie_li.find('div', attrs={'class': 'hd'})

         movie_name = detail.find('span', attrs={'class': 'title'}).getText()

         movie_name_list.append(movie_name)

     next_page = soup.find('span', attrs={'class': 'next'}).find('a')

     if next_page:

         return movie_name_list, DOWNLOAD_URL + next_page['href']

     return movie_name_list, None

 def main():

     url = DOWNLOAD_URL

     with codecs.open('movies', 'wb', encoding='utf-8') as fp:

         while url:

             html = download_page(url)

             movies, url = parse_html(html)

             fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))

 if __name__ == '__main__':

     main()

原文链接：

https://zhuanlan.zhihu.com/p/20423182

感谢原po。

豆瓣Top250的更多相关文章

14、使用csv和excel存储豆瓣top250电影信息
记得我们第三关的时候爬取了豆瓣TOP250的电影名/评分/推荐语/链接,现在呢,我们要把它们存储下来,记得用今天课上学的csv和excel,分别存储下来哦- URL htt ...
Forward团队-爬虫豆瓣top250项目-项目总结
托管平台地址:https://github.com/xyhcq/top250 小组名称:Forward团队组长:马壮成员:李志宇.刘子轩.年光宇.邢云淇.张良我们这次团队项目内容是爬取豆瓣电影T ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Forward团队-爬虫豆瓣top250项目-项目进度
项目地址:https://github.com/xyhcq/top250 我们的项目是爬取豆瓣top250的电影的信息,在做这个项目前,我们都没有经验,完全是从零开始,过程中也遇到了很多困难,不过我们 ...
《Forward团队-爬虫豆瓣top250项目-开发文档》
码云地址:https://github.com/xyhcq/top250 模块功能:获取豆瓣top250网页的源代码,并分析. def getHTMLText(url,k): # 获取网页源代码 tr ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
正则表达式和豆瓣Top250的爬取练习
datawhale任务2-爬取豆瓣top250 正则表达式豆瓣250页面分析完整代码参考资料正则表达式正则表达式的功能用于实现字符串的特定模式精确检索或替换操作. 常用匹配模式常用修饰符 ...
Tomcat+Nginx+Linux+Mysql部署豆瓣TOP250的项目到腾讯云服务器
写在前面因为前面有写过一篇关于豆瓣的top250的电影的可视化展示项目,你可以移步http://blog.csdn.net/liuge36/article/details/78607955了解这个项 ...
requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
豆瓣Top250爬取
第一次做爬虫项目,真的开心,非常顺利爬出了豆瓣Top250的电影 @^_^@ 自从今年6月份就开始自学python,断断续续一直没好好学.直到看了‘’老男孩python3全栈教育‘’,才有所收获.但是 ...

随机推荐

PCA 在手写数字数据集上的应用
在 skilearn 的手写数据集中,每个数据点都是 0 到 9 之间手写数字的一张 8*8 灰度图像.用 PCA 将其降维到二维,并可视化数据点,如下: 1.digits 数据演示: from sk ...
ubuntu 1804安装详解
我这边安装的是ubuntu server版本,大家安装时可以参考我这篇文件进行安装. 1.选择安装语言: 这里选择默认的"English"和“中文(简体)”都可以. 2.选择”安装 ...
使用WIFI网卡的AP功能
前几篇博客中,wifi无线网卡都工作于STA模式,那么它能否工作于AP模式.本篇博客就研究使wifi 无线网卡工作于AP模式.使用一个应用程序hostapd,关于它的介绍可以去此网站https://w ...
mysql常用操作（测试必备）
现在互联网的主流关系型数据库是mysql,掌握其基本的增.删.改.查是每一个测试人员必备的技能. sql语言分类 1.DDL语句(数据库定义语言): 数据库.表.视图.索引.存储过程,例如:CREAT ...
总结：几种生成html格式测试报告的方法
写自动化测试时,一个很重要的任务就是生成漂亮的测试报告. 1.用junit或testNg时,可以用ant辅助生成html格式: <target name="report" d ...
Git挽回错误的push（commit）
若你的(zhu)队友不小心把错误的代码提交到远程仓库,特别是包含了很多删除文件指令,不要尝试使用Git的API修改,或者删除Git仓库里的某次提交记录,风险十分大,正确的做法是备份你的本地源码,然后拉 ...
git blame （10）
git blame system_server.c 每一行提交的sha ,作者,提交的日期及提交的信息
二分查找java实现
二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法.但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列. 二分查找思路非常简单,由粗暴的遍历查找改为 ...
pytest--运行指定的测试和参数化
mark pytest提供了标记机制,允许你使用marker对测试函数做标记,一个测试函数可以有多个marker,一个marker也可以用来标记多个测试函数比如我们需要进行冒烟测试,不可能把所有的用 ...
使用golang写一个redis-cli
使用golang写一个redis-cli 0. redis通信协议 redis的客户端(redis-cli)和服务端(redis-server)的通信是建立在tcp连接之上, 两者之间数据传输的编码解 ...

豆瓣Top250

豆瓣Top250的更多相关文章

随机推荐

热门专题