python+selenium+unittest，爬虫电影网站

以前经常在这个网站上下载电影下来看，这个网站比较坑的就是，主页上只有电影的名称，但是评分是看不到的；只有再点击电影名字，进入电影主页时才能看到评分。一般下载的电影都是评分高的才看，低的就忽略掉了。每次都要来回去看评分，太麻烦了。So，我就写了一个小小的爬虫，暂时就叫爬虫好了。

在脚本中使用的是：python2.7 + selenium + unittest + chrome(其实我想用phantomjs的，但是在抓取评分的时候，老是抓取不到，好像是js搞的鬼)

　其实流程很简单：1、进入主页获取电影的title和url，2、根据获取的url，获取该电影的评分score，3、保存结果到本地文件中

　 1、进入主页获取电影的title和url

　　2、根据获取的url，获取该电影的评分score

　　　下面我就逐步分解：

　　　首先，进入该网站的主页，利用webdriver来定位电影，然后获取所有电影的属性：title，url，使用的定位是css

 def geturl(self): # 该函数是获取首页的电影的  title 和 url

         self.dr.get('http://www.xiamp4.com') # 网站首页

         urls = [] # 存放结果的list

         eles = self.dr.find_elements_by_css_selector('div.box.newbox ul.img-list.dis.clearfix b a') # 定位满足条件的所有电影，css定位

         for ele in eles:

             tmp = dict()

             url = ele.get_attribute('href') # 获取电影的url

             title = ele.get_attribute('title') # 获取电影的title

             tmp['url'] = url

             tmp['title'] = title

             urls.append(tmp) # 将电影的title和url放在一个字典中，然后添加到 urls中

         return urls

　　2、根据获取的url，获取该电影的评分score

     def getscore(self, url):

         # url = 'http://www.xiamp4.com/Html/GP23161.html'

         self.dr.get(url) # 进入电影的页面

         time.sleep(2)

         ele = self.dr.find_element_by_css_selector('input#MARK_B2') # 定位评分的元素

         score = ele.get_attribute('value') # 获取元素value的值

         # print score

         return score    # 该函数的左右就是 根据参数电影的url，返回该电影的评分

　　下面是最终的代码：

 #coding=utf-8

 from selenium import webdriver

 import unittest

 import time

 class Spider(unittest.TestCase):

     def setUp(self):

         print '####################### Start #######################'

         self.dr = webdriver.Chrome()

         self.dr.implicitly_wait(10)

     def tearDown(self):

         self.dr.close()

         print '####################### End   #######################'

     def geturl(self):

         self.dr.get('http://www.xiamp4.com')

         urls = []

         eles = self.dr.find_elements_by_css_selector('div.box.newbox ul.img-list.dis.clearfix b a')

         for ele in eles:

             tmp = dict()

             url = ele.get_attribute('href')

             title = ele.get_attribute('title')

             tmp['url'] = url

             tmp['title'] = title

             urls.append(tmp)

         return urls

     def getscore(self, url):

         # url = 'http://www.xiamp4.com/Html/GP23161.html'

         self.dr.get(url)

         time.sleep(2)

         ele = self.dr.find_element_by_css_selector('input#MARK_B2')

         score = ele.get_attribute('value')

         # print score

         return score

     def test_run(self):

         moves = self.geturl()

         # print len(moves)

         for move in moves:

             move['score'] = self.getscore(move['url'])

         try:

             if len(moves) > 0:

                 with open('MoveMessage.txt', 'a') as f:

                         f.write('####################### Start #######################' + '\n')

                 for move in moves:

                     tmp = 'MoveName: %s\t,MoveScore: %s\t,MoveUrl: %s' % (move['title'],move['score'],move['url'])

                     print tmp

                     with open('MoveMessage.txt', 'a') as f:

                         f.write(tmp.encode('utf-8') + '\n')

                 with open('MoveMessage.txt', 'a') as f:

                         f.write('#######################  End  #######################' + '\n')

         except Exception,e:

             print 'Not found moves!',e

 if __name__ == '__main__':

     unittest.main()

运行的最终结果：

python+selenium+unittest，爬虫电影网站的更多相关文章

Python+selenium+unittest+HTMLTestReportCN单元测试框架分享
分享一个比较基础的,系统性的知识点.Python+selenium+unittest+HTMLTestReportCN单元测试框架分享 Unittest简介 unittest是Python语言的单元测 ...
Python+Selenium+Unittest+Ddt+HTMLReport分布式数据驱动自动化测试框架结构
1.Business:公共业务模块,如登录模块,可以把登录模块进行封装供调用 ------login_business.py from Page_Object.Common_Page.login_pa ...
python+selenium +unittest生成HTML测试报告
python+selenium+HTMLTestRunner+unittest生成HTML测试报告首先要准备HTMLTestRunner文件,官网的HTMLTestRunner是python2语法写 ...
【爬虫】如何用python+selenium网页爬虫
一.前提爬虫网页(只是演示,切勿频繁请求):https://www.kaola.com/ 需要的知识:Python,selenium 库,PyQuery 参考网站:https://selenium- ...
Python Selenium unittest+HTMLTestRunner实现自动化测试及发送测试报告邮件
1.UI测试框架搭建-目录结构 2. 文件介绍 2.1.baseinfo->__init__.py 配置文件定义基础参数 #-*-coding:utf-8-*- #测试用例配置参数 base_u ...
python selenium --unittest 框架
转自:http://www.cnblogs.com/fnng/p/3300788.html 学习unittest 很好的一个切入点就是从selenium IDE 录制导出脚本.相信不少新手学习sele ...
python + selenium + unittest 自动化测试框架 -- 入门篇
. 预置条件: 1. python已安装 2. pycharm已安装 3. selenium已安装 4. chrome.driver 驱动已下载二.工程建立 1. New Project:建立自己的 ...
Python+Selenium ----unittest单元测试框架
unittest是一个单元测试框架,是Python编程的单元测试框架.有时候,也做叫做“PyUnit”,是Junit的Python语言版本.这里了解下,Junit是Java语言的单元测试框架,Java ...
windiows下搭建python+selenium+unittest+Chrome的Web自动化环境
一.selenium.unittest概念 Selenium 是用于测试 Web 应用程序用户界面 (UI) 的常用框架.它是一款用于运行端到端功能测试的超强工具.您可以使用多个编程语言编写测试,并且 ...

随机推荐

为EasyUI 的Tab 标签添加右键菜单
在网上看了很多demo 自己实现了一个效果如下 ps jquery1.7.2 jQuery EasyUI 1.3.6easyui QQ群:15129679 <!doctype html> ...
突然顿悟的Javascript中的this
一直对Javascript中的this都有一种似是而非的感觉,今天突然感觉豁然开朗,特此记录一下. 咱们先看个栗子: <!DOCTYPE html> <html> <he ...
ubuntu下matplotlib画图中文乱码问题
最近因为论文原因在学习机器学习,看的一本叫做<机器学习实战>的书,看了看还是不错的,因为其中既有原理又有实例.今天载使用matplotlib进行画图时,发现中文会显示为小方块,这个问题真是 ...
android 常用类
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/38965311,本文出自[张鸿洋的博客] 打开大家手上的项目,基本都会有一大批的辅 ...
Mac工具
iterm2是一个替代终端和iTerm的后继项目.它支持 OS 10.5 或者更新版本.iterm2 提供更多你需要的功能和特点. Flashlight,快速且全面地显示所有「关键词」索引出的结果参 ...
使用 jackson 解析 json 演示样例
首先须要下载3个包,下载地址在Github FasterXML,这三个核心模块各自是: Streaming ("jackson-core") defines low-level s ...
LeetCode: Lowest Common Ancestor of a Binary Search Tree 解题报告
https://leetcode.com/submissions/detail/32662938/ Given a binary search tree (BST), find the lowest ...
Google 面试题：Java实现用最大堆和最小堆查找中位数 Find median with min heap and max heap in Java
Google面试题股市上一个股票的价格从开市开始是不停的变化的,需要开发一个系统,给定一个股票,它能实时显示从开市到当前时间的这个股票的价格的中位数(中值). SOLUTION 1: 1.维持两个h ...
__new__ 的简单应用
用__new__与__init__不同,通过继承内建类型对象,__new__可以用来创建一个简单的新类型,在__new__加入一些动作以完成创建. class RoundFloat(float): d ...
offsetof的使用
#include <stddef.h> #define offsetof ( TYPE, m) (size_t )&reinterpret_cast< const vol ...

python+selenium+unittest，爬虫电影网站

python+selenium+unittest，爬虫电影网站的更多相关文章

随机推荐

热门专题