绪论

首先写这个文章的时候仅仅花了2个晚上(我是菜鸟所以很慢),自己之前略懂selenium,但是不是很懂csv,这次相当于练手了。

第一章 环境介绍

具体实验环境
系统 Windows10教育版 1709版本
python  3.6.3 
Selenium  3.12.0
bs4  0.0.1
csv  1.0

第二章 过程

这里是一份利用Selenium写成的爬取猫眼电影top100的代码,具体没有什么好讲的,以下我会提几个需要注意的地方。

 from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import csv def get_html(url):
browser.get(url)
return browser.page_source
def content_print(pagesource):
soup = BeautifulSoup(pagesource,"html.parser")
films = soup.find_all("dd")
film_list= []
for film in films:
name =film.find("a")
haha =name["title"]
#print(haha) stars =film.find("p",class_ = "star")
#print(stars.text) date = film.find("p",class_ = "releasetime").string score_1 = film.find("i",class_ = "integer")
score_2 = film.find("i",class_ = "fraction")
score = score_1.text + score_2.text
#print(score)
film_list.append([haha,date,score])
print(film_list)
if __name__ == '__main__':
browser = webdriver.Chrome()
for i in range(0,10):
houzhui = str(10 * i) initial_url = "http://maoyan.com/board/4?offset=" + houzhui
html = get_html(initial_url)
content_print(html)
browser.close()

文件头的部分,“from selenium import webdriver
from selenium.webdriver.common.keys import Keys”这里已经引入了Selenium但是下一句又引入了里面的一些库,这里是为了在效率方面使得整个工程变得变得更加效率,实际上如果不加上下一句,是不能运行的。
    整个代码的结构是先创建一个browser实例,然后遍历10个页面去获取HTML代码,然后把得到的HTML代码返回到content_print中来做进一步的分析,打印以及写入到csv中。最后关闭整个browser。这个过程必须在结构上先验证无误,然后在写具体的代码。
    content_print(pagesource)这里是代码的核心部分。这里的“films = soup.find_all("dd")”dd是每个页面中每一个电影信息所在的地方,我们把他放入到“film_list= []”中,然后分别用“.find”函数以及class选择器来提取我们想要的内容,最后通过“film_list.append([haha,date,score])”放入到这个list中,这里基本及时把10页的电影信息写入到了一个list。

以上是这段代码的具体功能。

接下来我在写入csv的时候写了一段代码,这是对一个页面得到的信息进行写入的代码:

import pandas as pd

infos = [['霸王别姬', '上映时间:1993-01-01(中国香港)', '9.6'], ['肖申克的救赎', '上映时间:1994-10-14(美国)', '9.5'], ['罗马假日', '上映时间:1953-09-02(美国)', '9.1'], ['这个杀手不太冷', '上映时间:1994-09-14(法国)', '9.5'], ['教父', '上映时间:1972-03-24(美国)', '9.3'], ['泰坦尼克号', '上映时间:1998-04-03', '9.5'], ['龙猫', '上映时间:1988-04-16(日本)', '9.2'], ['唐伯虎点秋香', '上映时间:1993-07-01(中国香港)', '9.2'], ['魂断蓝桥', '上映时间:1940-05-17(美国)', '9.2'], ['千与千寻', '上映时间:2001-07-20(日本)', '9.3']]

list = []
for x in range(0,10):
for y in range(0,3):
#print(infos[x][y])
list.append(infos[x][y])
names = []
for name in range(0,30,3):
names.append(list[name])
#print(names) dates = []
for date in range(1,30,3):
dates.append(list[date])
#print(dates) grades = []
for grade in range(2,30,3):
grades.append(list[grade])
#print(grades) dateframe = pd.DataFrame({'Movies':names,'Dates':dates,'Scores':grades})
#输出顺序是怎样的?为什么不是按照我设置的顺序?
dateframe.to_csv('C:/Users/zhengyong/Desktop\/study/csv.csv',index=False,sep=',',encoding = "gbk")前写入的list放入infos,然后新建一个“list = []”,然后利用两个for把list里的list的信息写到一个list里,然后再分别把信息取出来,然后再利用“pd.DataFrame”写到csv中。
 这里我引入了pandas进行写入操作。

先把我们之前写入的list放入infos,然后新建一个“list = []”,然后利用两个for把list里的list的信息写到一个list里,然后再分别把信息取出来,然后再利用“pd.DataFrame”写到csv中。

代码总体而言是比较傻瓜式的,最重要的问题是会在重复写入的时候覆盖之前写入的文件,所以接下来我会做一个新的页面功能(这段代码里的具体参数实在太多,我没找到可以使他不覆盖的方法)。

以下就是改进版本:

import pandas as pd
import csv infos = [['霸王别姬', '上映时间:1993-01-01(中国香港)', '9.6'], ['肖申克的救赎', '上映时间:1994-10-14(美国)', '9.5'], ['罗马假日', '上映时间:1953-09-02(美国)', '9.1'], ['这个杀手不太冷', '上映时间:1994-09-14(法国)', '9.5'], ['教父', '上映时间:1972-03-24(美国)', '9.3'], ['泰坦尼克号', '上映时间:1998-04-03', '9.5'], ['龙猫', '上映时间:1988-04-16(日本)', '9.2'], ['唐伯虎点秋香', '上映时间:1993-07-01(中国香港)', '9.2'], ['魂断蓝桥', '上映时间:1940-05-17(美国)', '9.2'], ['千与千寻', '上映时间:2001-07-20(日本)', '9.3']] list = []
for x in range(0,10):
for y in range(0,3):
#print(infos[x][y])
list.append(infos[x][y])
#print(list) names = []
for n in range(0,30,3):
for i in range(n,n+3):
#print(list[i])
names.append(list[i])
print(names) # csv 写入
#names = ['marry', 26]
# 打开文件,追加a
out = open('C:/Users/zhengyong/Desktop/study/Stu_csv.csv', 'a', newline='') # 设定写入模式
csv_write = csv.writer(out, dialect='excel')
# 写入具体内容
csv_write.writerow(names)
print( str(n/3) + "times to write in the Excel!")
names = []

其中有一段代码我得具体说说,

names = []   #新建一个names[]
for n in range(0,30,3):
for i in range(n,n+3):
#print(list[i]) #每三个一组,把30个遍历完
names.append(list[i]) 添加到names
print(names)

这段代码实际上是把一个list分成了好多个(10)新的list,名字为names,然后再去写入,再继续下一组。。。

第三章 最终成品

'''这个版本能够爬出拥有10页的电影信息的具体信息,
并将这些信息写在Excel中。整个过程是批量化的,输入参数无需干预。''' from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import csv def get_html(url):
browser.get(url)
return browser.page_source
def content_print(pagesource):
soup = BeautifulSoup(pagesource,"html.parser")
films = soup.find_all("dd")
infos= []
for film in films:
name =film.find("a")
haha =name["title"]
#print(haha) stars =film.find("p",class_ = "star")
#print(stars.text) date = film.find("p",class_ = "releasetime").string score_1 = film.find("i",class_ = "integer")
score_2 = film.find("i",class_ = "fraction")
score = score_1.text + score_2.text
#print(score)
infos.append([haha,date,score])
print(infos) list = []
for x in range(0, 10):
for y in range(0, 3):
# print(infos[x][y])
list.append(infos[x][y])
# print(list) names = []
for n in range(0, 30, 3):
for i in range(n, n + 3):
# print(list[i])
names.append(list[i])
print(names) # csv 写入
#names = ['marry', 26] # 打开文件,追加a
out = open('C:/Users/zhengyong/Desktop/study/csv.csv', 'a', newline='') # 设定写入模式
csv_write = csv.writer(out, dialect='excel')
# 写入具体内容
csv_write.writerow(names)
print(str(n / 3) + "times to write in the Excel!")
names = [] if __name__ == '__main__':
browser = webdriver.Chrome()
for i in range(0,10):
houzhui = str(10 * i)
initial_url = "http://maoyan.com/board/4?offset=" + houzhui
html = get_html(initial_url)
content_print(html)
browser.close()

Selenium + Python +CSV的更多相关文章

  1. selenium + python自动化测试环境搭建

    selenium的在python平台的搭建: 搭建平台windows 准备工具如下: --------------------------------------------------------- ...

  2. Page Object Model (Selenium, Python)

    时间 2015-06-15 00:11:56  Qxf2 blog 原文  http://qxf2.com/blog/page-object-model-selenium-python/ 主题 Sel ...

  3. selenium + python 多浏览器测试

    selenium + python 多浏览器测试 支持库包 在学习 Python + Selenium 正篇之前,先来看下对多浏览器模拟的支持.目前selenium包中已包含webdriver,hel ...

  4. selenium + python 自动化测试环境搭建

    selenium + python 自动化测试 —— 环境搭建 关于 selenium Selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操 ...

  5. <译>Selenium Python Bindings 5 - Waits

    如今,大多数的Web应用程序使用AJAX技术.当页面加载到浏览器,页面中的元素也许在不同的时间间隔内加载.这使得元素很难定位,如果在DOM中的元素没有呈现,它将抛出ElementNotVisibleE ...

  6. <译>Selenium Python Bindings 2 - Getting Started

    Simple Usage如果你已经安装了Selenium Python,你可以通过Python这样使用: #coding=gbk ''' Created on 2014年5月6日 @author: u ...

  7. <译>Selenium Python Bindings 1 - Installation

    Installation Introduction Selenium Python bindings 提供了一个简单的API来使用Selenium WebDriver编写使用功能/验收测试.通过Sel ...

  8. selenium python 第一个脚本

    为什么选择python?我的回答很简单,简单易学,功能强大! 下面看看python和selenium 2的结合是什么样子吧 一.第一个selenium python脚本: #coding = utf- ...

  9. selenium + python自动化测试环境搭建--亲测

    环境准备: 1.下载所学安装包: setuptools https://pypi.python.org/packages/2.7/s/setuptools/ selenium https://pypi ...

随机推荐

  1. win32: 文本编辑框(Edit)控件响应事件

    过去几年,关于文本编辑框(Edit)控件的响应事件,我都是在主程序 while(GetMessage(&messages, NULL, 0, 0)) { ... } 捕获. 总感觉这种方式让人 ...

  2. 计算机基础理论知识梳理篇(一):数据类型长度、内存页、IPC

    字长与数据类型长度 字长指CPU在同一时间能够处理二进制数据的位数,是由其外接数据总线(地址总线决定了CPU的寻址空间,如16位微型机的地址总线为20位,其可寻址空间为220 = 1MB)的条数决定的 ...

  3. spring-boot-devtools在Idea中热部署方法

    1 pom.xml文件 注:热部署功能spring-boot-1.3开始有的 <!--添加依赖--> <dependency> <groupId>org.sprin ...

  4. idea中的一些快捷键,未完待续......

    1.快速查看注释的渲染效果 在keymap中查找“Quick Documentation”并设置自己喜欢的快捷键即可 2.全局搜索 在keymap中查找“Replace in Path”并设置自己喜欢 ...

  5. Slow ReadProcessor&amp;Error Slow BlockReceiver错误日志分析(转)

    1.总结 "Slow ReadProcessor" 和"Slow BlockReceiver"往往是因为集群负载比较高或者某些节点不健康导致的,本文主要是帮助你 ...

  6. dubbo本地服务化实现(dubbo三)

    一.dubbo服务化架构包含的内容 对于传统工程而言,分层的依据是按照包来区分.由于在相同的工程中,所以服务的提供和调用可以方便的实现. 但是对于分布式架构而言,服务的提供者负责服务具体的实现和接口规 ...

  7. Unity3D 热更新方案总结

    如何评价腾讯在Unity下的xLua(开源)热更方案? Unity 游戏用XLua的HotFix实现热更原理揭秘 腾讯开源手游热更新方案,Unity3D下的Lua编程 [Unity]基于IL代码注入的 ...

  8. LESS知识总结

      知识体系 1.认识less 2.使用less 3.变量( variables  ) 4.混合 ( mixins  ) 5.嵌套规则 ( nested-rules  ) 6.运算(operation ...

  9. 排序算法以及其java实现

    一.术语了解 稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面: 不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面: 内排序:所有排序操作都在内存中完成: 外排序:由 ...

  10. PHP content-type为"application/json"的post过来的数据$_POST接受不到的问题

    ajax默认是以application/x-www-form-urlencoded方式提交.也就是常见的表单提交方式.在PHP中使用$_POST方式可以轻松获取. 但如果将ajax的请求头强制指定为a ...