[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

一、介绍

　　　　本例子用Selenium +phantomjs爬取智能电视网站（http://www.tvhome.com/news/）的资讯信息，输入给定关键字抓取图片信息。

　　　　给定关键字：数字；融合；电视

　　二、网站信息

　　三、数据抓取

　　　　针对上面的网站信息，来进行抓取

　　　　1、首先抓取信息列表

　　　　　　抓取代码：Elements = doc('div[class="main_left fl"]').find('div[class="content"]').find('ul').find('li')

　　　　2、抓取图片

　　　　　　抓取代码：imgurl = element('a').find('img').attr('src')；

　　　　　　　　　　　self.down_picture(imgurl)

　　四、完整代码

 def down_picture(self, imgurl):

        """

        下载图片到本地

        :param imgurl: 图片url

        """

        # http://img.tvhomeimg.com/uploads/2017/06/23/144910c41de4781ccfe9435e736ef72b.jpg

        if len(imgurl)>0:

            fileName = ''

            if imgurl.rfind('/')>0:

                fileName = imgurl[imgurl.rfind('/') + 1:]

                u = urllib.urlopen(imgurl)

                data = u.read()

                strpath = os.path.dirname(os.getcwd())+'\picture'

                with open(os.path.join(strpath, fileName), 'wb') as f:

                    f.write(data)

[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息的更多相关文章

[Python爬虫] 之二十三：Selenium +phantomjs 利用 pyquery抓取智能电视网数据
一.介绍本例子用Selenium +phantomjs爬取智能电视网(http://news.znds.com/article/news/)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字 ...
[Python爬虫] 之二十一：Selenium +phantomjs 利用 pyquery抓取36氪网站数据
一.介绍本例子用Selenium +phantomjs爬取36氪网站(http://36kr.com/search/articles/电视?page=1)的资讯信息,输入给定关键字抓取资讯信息. 给 ...
[Python爬虫] 之二十七：Selenium +phantomjs 利用 pyquery抓取今日头条视频
一.介绍本例子用Selenium +phantomjs爬取今天头条视频(http://www.tvhome.com/news/)的信息,输入给定关键字抓取图片信息. 给定关键字:视频:融合:电视二 ...
[Python爬虫] 之二十：Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据
一.介绍本例子用Selenium +phantomjs 利用 pyquery通过搜狗搜索引擎数据()的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融合:电视抓取信息内如下: 1.资讯 ...
[Python爬虫] 之三十：Selenium +phantomjs 利用 pyquery抓取栏目
一.介绍本例子用Selenium +phantomjs爬取栏目(http://tv.cctv.com/lm/)的信息二.网站信息三.数据抓取首先抓取所有要抓取网页链接,共39页,保存到数据库里 ...
[Python爬虫] 之二十九：Selenium +phantomjs 利用 pyquery抓取节目信息信息
一.介绍本例子用Selenium +phantomjs爬取节目(http://tv.cctv.com/epg/index.shtml?date=2018-03-25)的信息二.网站信息三.数据抓 ...
[Python爬虫] 之二十八：Selenium +phantomjs 利用 pyquery抓取网站排名信息
一.介绍本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...
[Python爬虫] 之二十五：Selenium +phantomjs 利用 pyquery抓取今日头条网数据
一.介绍本例子用Selenium +phantomjs爬取今日头条(http://www.toutiao.com/search/?keyword=电视)的资讯信息,输入给定关键字抓取资讯信息. 给定 ...
[Python爬虫] 之二十四：Selenium +phantomjs 利用 pyquery抓取中广互联网数据
一.介绍本例子用Selenium +phantomjs爬取中广互联网(http://www.tvoao.com/select.html)的资讯信息,输入给定关键字抓取资讯信息. 给定关键字:数字:融 ...

随机推荐

Swift 闭包(六)
http://blog.csdn.net/huangchentao/article/details/32714185 闭包 Closures 1.闭包表达式闭包表达式是一种利用简单语法构建内联包的方 ...
Linux内核线程之深入浅出【转】
转自:http://blog.csdn.net/yiyeguzhou100/article/details/53126626 [-] 线程和进程的差别线程的分类 1 内核线程 2 轻 ...
servlet(6) - servlet总结 - 小易Java笔记
垂阅前必看: 这都是我总结的我觉得是学习servlet应该掌握的,我在学习期间也做了一个博客项目来让所学的知识得以巩固.下面就是博客项目链接.前面的servlet相关的笔记总汇,还有就是我把觉得在学习 ...
phoronix-test-suite测试云服务器
centos系统 phoronix-test-suite是目前Linux下比较常用的性能测试软件. 使用phoronix-test-suite条件前提:需要安装php5,需要PHP都DOM扩展因为是 ...
Django组件之contenttype的应用
contenttypes 是Django内置的一个应用,可以追踪项目中所有app和model的对应关系,并记录在ContentType表中. 每当我们创建了新的model并执行数据库迁移后,Conte ...
"个性化空间"性能优化方案设计初步
一.问题的提出在九月中开始,我们要打造个性化空间,领导要求的是只进行原型的设计,逻辑的设计,不进行技术开发.其实是严重不正确的,因为个性化空间其特点与现有的技术模型完全不同,现有的技术方案未必能适应 ...
JSONObject依赖包
commons-lang.jar commons-beanutils.jar commons-collections.jar commons-logging.jar ezmorph.jar json- ...
webloader上传图片详细教程/使用thinkphp5.0（原创）
这个插件对后端程序员相当友好,无论是JAVA还是PHP,抑或python,基本只需要一句代码就能完成上传并且预览的效果,先上效果图,让你们眼馋一下废话不说,直接撸代码,前端代码如下: <htm ...
[libgdx游戏开发教程]使用Libgdx进行游戏开发(8)-粒子系统
没有美工的程序员,能够依赖的还有粒子系统. 这一章我们将使用libGDX的粒子系统线性插值以及其他的方法来增加一些特效. 你也可以使用自己编辑的粒子效果,比如这个粒子文件dust:http://fil ...
【python】ipython与python的区别
[python]ipython与python的区别 (2014-06-05 12:27:40) 转载▼ 分类: Python http://mba.shengwushibie.com/itbook ...

[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

一、介绍

二、网站信息

三、数据抓取

四、完整代码

[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息的更多相关文章

随机推荐

热门专题

　　二、网站信息

　　三、数据抓取

　　四、完整代码