selenium+PhantomJS小案例—爬豆瓣网所有电影代码python

#coding=utf-8
from selenium import webdriver

def crawMovie():
    driver=webdriver.PhantomJS()
    driver.get("https://movie.douban.com/")
    movie_list=[]
    more_btn=driver.find_element_by_xpath('(//a[@class="more-link"])[1]')
    more_btn.click()

    while True:
        start_index=len(movie_list)
        xpath_str='//a[@class="item"][position()>%d]'%start_index
        item_tags=driver.find_elements_by_xpath(xpath_str)
        print "start_index:",start_index
        print item_tags
        print "number:",len(item_tags)
        for item_tag in item_tags:
            img_tag=item_tag.find_element_by_tag_name('img')
            cover=img_tag.get_attribute("src")
            title=img_tag.get_attribute("alt")
            rating=item_tag.find_element_by_xpath(".//p/strong").text

            movie="cover:%s,title:%s,rating:%s"%(cover,title,rating)
            #print "movie:",type(movie),movie

            print u"电影名："+title
            movie_list.append(movie.encode("gbk")+"\n")
        print "--"*20
        load_more_btn=driver.find_element_by_xpath('//a[@class="more"]')
        if load_more_btn.get_attribute("style"):
            break
        load_more_btn.click()

    with open("e:\\movie_list.txt","w") as fp:
        fp.writelines(movie_list)

if __name__=="__main__":
    crawMovie()

selenium+PhantomJS小案例—爬豆瓣网所有电影代码python的更多相关文章

使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
使用selenium+phantomJS实现网页爬取
有些网站反爬虫技术设计的非常好,很难采用WebClient等技术进行网页信息爬取,这时可以考虑采用selenium+phantomJS模拟浏览器(其实是真实的浏览器)的方式进行信息爬取.之前一直使用的 ...
selenium&phantomjs实战--漫话爬取
为什么直接保存当前网页,而不是找到所有漫话链接,再有针对性的保存图片? 因为防盗链的原因,当直接保存漫话链接图片时,只能保存到防盗链的图片. #!/usr/bin/env python # _*_ c ...
Vue（二十二）vuex小案例（官网计数案例整合）
1.使用 vue-cli 创建项目(具体操作可以参考前面的文章) ... 2.下载 vuex - npm install vuex -S 3.将 vuex 添加到项目中 (1)在项目中创建store文 ...
python Selenium+phantomjs 小技巧
1.元素模糊定位如抓取下面列表: elements = doc("li[id^='result_']") 2.元素精确定位 elements =doc("div[cla ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...
python+selenium+PhantomJS批量投递智联简历(不要用自己的账号进行测试，请使用小号，很烦人的，哈哈哈)
1.环境python2.7+selenium+PhantomJS(软件安装和库的安装网上都有教程我们跳过,so easy) 2.原理绕过首页登录需要验证码,直接进入搜索栏,输入搜索的职位+地区搜索出 ...
selenium + phantomjs 爬取落网音乐
题记: 作为一个业余程序猿,最大的爱好就是电影和音乐了,听音乐当然要来点有档次的.落网的音乐的逼格有点高,一听听了10年.学习python一久了,于是想用python技术把落网的音乐爬下来随便听. 目 ...

随机推荐

20165323 2017-2018-2 《Java程序设计》课程总结
一.每周作业链接汇总预备作业1:20165323 我期望的师生关系预备作业2:20165323 学习基础与C语言学习心得预备作业3:20165323 预备作业三第一周作业:20165323&l ...
【Oracle】Linux7安装11g 86%报错：Error in invoking target 'agent nmhs' of makefile
http://blog.itpub.net/29475508/viewspace-2120836/
'tensorflow' has no attribute 'sub'
在学习tensorflow的时候,照到官方的例子做,发现了一个 Traceback (most recent call last): File , in <module> sub = tf ...
ubuntu多版本cuda并存与切换【两个博客链接】
https://bluesmilery.github.io/blogs/a687003b/ https://blog.csdn.net/Maple2014/article/details/785742 ...
BZOJ 2989: 数列/4170: 极光
题解: n倍经验题首先比较容易想到的是对绝对值分类讨论然后是4维偏序 1.查询和修改顺序 2.x>y 3.a[x]>a[y] 4.(x+a[x])-(y+a[y])<=k 这样是 ...
linux shell基本知识
shell script的一些注意事项: .#这个符号是注释本行,通常用来做批注用,#!除外,是用来标注用哪种shell执行本脚本, .执行顺序为从上到下,从做到右 .忽略空行,tab空格 .脚本换行 ...
【Android】GestureDetector类及其用法
当用户触摸屏幕的时候,会产生许多手势,例如down,up,scroll,filing等等. 一般情况下,我们知道View类有个View.OnTouchListener内部接口,通过重写他的onTouc ...
ionic2中使用自定义图标
在ionic2中使用自定义图标,如iconfont(阿里巴巴矢量图标). 先在http://www.iconfont.cn/ 中找到自己需要的图标,然后将图标加入购物车,然后下载该图标. 下载完成后解 ...
JQuery函数大全
$(”p”).addClass(css中定义的样式类型); 给某个元素添加样式 $(”img”).attr({src:”test.jpg”,alt:”test Image”}); 给某个元素添加属性/ ...
python--实践--模拟浏览器（http）登陆
#方法一:直接使用coookies登陆,此方法需要提前在浏览器中使用账号密码登陆后,获取浏览器中的cookies,在构造的请求中携带这个cookies(缺点是有时效性). #方法二:通过账号密码(Fr ...

selenium+PhantomJS小案例—爬豆瓣网所有电影代码python

selenium+PhantomJS小案例—爬豆瓣网所有电影代码python的更多相关文章

随机推荐

热门专题