使用selenium实现站长素材图片采集

from selenium import webdriver

import requests,os

from lxml import etree

from selenium.webdriver.chrome.options import Options

from urllib import request

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')   #跳过视图界面

pro = webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options)

url = "http://sc.chinaz.com/tupian/haiyangshengwutupian.html"

pro.get(url)

js = 'window.scrollTo(0,document.body.scrollHeight)'

pro.execute_script(js)

page_text = pro.page_source

tree = etree.HTML(page_text)

url_img = tree.xpath('//div[@id="container"]/div[@class="box picblock col3 masonry-brick"]/div/a/img/@src')  #获取图片url列表

names = tree.xpath('//div[@id="container"]/div[@class="box picblock col3 masonry-brick"]/div/a/@alt')   #图片名称列表

if not os.path.exists('./img'):  #生成文件夹

    os.mkdir('./img')

for index,url in enumerate(url_img):

    img_path = './img/' + names[index]+'.jpg'  #提取图片名称

    request.urlretrieve(url,img_path)

使用selenium实现站长素材图片采集的更多相关文章

3D图片采集与展示（SurfaceView 自适应 Camera, 录制视频，抽取帧）
最近在做一个3D图片采集与展示. 主要功能为:自定义Camera(google 已经摈弃了Camera, 推荐使用Camera2,后续篇幅,我将会用Camera2取代Camera),围绕一个物体360 ...
C#图片采集软件自动翻页自动分类（收集美图必备工具）（一）
网站管理员希望将别人的整站数据下载到自己的网站里或者将别人网站的一些内容保存到自己的服务器上.从内容中抽取相关的字段,发布到自己的网站系统中.有时需要将网页相关的文件也保存到本地,如图片.附件等. 图 ...
分享一组Rpg Marker人物行走,游戏素材图片，共20张图片
分享一组Rpg Marker人物行走,游戏素材图片,共20张图片上面的下载地址链接是图片,无法直接复制哦!下载请直接点击: 游戏素材下载或者复制以下链接:http://***/view/13.h ...
基于ZedBoard的Webcam设计(一)：USB摄像头(V4L2接口)的图片采集【转】
转自:http://www.cnblogs.com/surpassal/archive/2012/12/19/zed_webcam_lab1.html 一直想把USB摄像头接到Zedboard上,搭建 ...
图片采集器_PHP
现在国内模仿“pinterest”的越来越多了,之前我做过一个基于chrome浏览器上的一个“图片采集工具”,类似于“花瓣网“那样的,初期我觉得挺简单,后来做起来发现还是挺复杂的,特别是整合到你自己的 ...
php图片采集后按原路径保存图片
php图片采集后按原路径保存图片. 代码: <?php $domain ='http://www.jbxue.com'; $url = '/newskin/images/v4/logo.jpg' ...
15、USB摄像头图片采集+QT显示
一.Qt的下载和的安装关于Qt的安装,网络上有很详细的介绍.这里只做简单介绍. 需要的安装包一共有两个:Qt Creator 和QTE. 1)QT Creator 下载地址:qt-sdk-linux ...
Selenium&EmguCV实现爬虫图片识别
概述爬虫需要抓取网站价格,与一般抓取网页区别的是抓取内容是通过AJAX加载,并且价格是通过CSS背景图片显示的. 每一个数字对应一个样式,如'p_h57_5' .p_h57_5 { backgrou ...
selenium爬取百度图片
一:简介通过selenium模块,模拟火狐浏览器进行搜索下载操作. 二:脚本内容 # -*- coding:utf-8 -*- # 百度图片自动爬去 # Chrome浏览器类似,设置其options ...

随机推荐

python从hello world开始 - python基础入门(3)
万丈高楼平地起,编程亦如此.改变世界是结果,坚持努力学习改bug是过程,hello world是开始,所有语言均是如此. 一.使用pycharm创建第一个hello world 项目 1.Create ...
[转帖]Chrome中默认非安全端口
Chrome,你这坑人的默认非安全端口 https://www.cnblogs.com/soyxiaobi/p/9507798.html 之前遇到过这个总结的比之前那篇要好呢. 今天用chrome打 ...
SrpingBoot入门到入坟03-基于idea快速创建SpringBoot应用
先前先创建Maven项目然后依照官方文档再然后编写主程序写业务逻辑代码才建立好SpringBoot项目,这样太过麻烦,IDE都支持快速创建,下面基于idea: 使用Spring Initializer ...
无线网卡SP-WL450U的驱动问题
修改win10的设备驱动为需要的驱动,SP-WL450U的驱动问题解决SP-WL450U的驱动问题,在电脑上安装无线网卡后,总是用不上5G信号,只能选择2.4G.重新安装程序后也不行,在反复试用后发 ...
网络模式: host-only & NAT & 桥接
基本上,Host-only相当于虚拟机和宿主机通过交叉线相连:NAT,宿主机相当于虚拟机的路由器:桥接,相当于把宿主机和虚拟机同时接到交换机上,然后交换机接到外网. 连接性上说,可参考下表: 连接宿 ...
CAS 5.x搭建常见问题系列(2).PKIX path building failed
错误原因服务端的证书是不安全的,Cas的客户端在调用时因为安全提醒造成调用失败. CAS的客户端需要导入服务端的证书后,就正常了. 具体操作步骤如下: 1. 首先启动tomcat,看下之前搭建的ca ...
MySQL 的COUNT(x)性能怎么样？
做一个积极的人编码.改bug.提升自己我有一个乐园,面向编程,春暖花开! x 可以代表: 主键id.字段.1.* 0 说明对于count(主键id)来说 innodb引擎会遍历整张表,把每一行的 ...
TCP/IP及http协议 SOAP REST
TCP/IP及http协议: TCP/IP协议主要解决数据如何在网络中传输, 而HTTP是应用层协议,主要解决如何包装数据 SOAP:简单对象访问协议(Simple Object Access Pro ...
监控神器-普罗米修斯Prometheus的安装
搬砖党的福音:普罗米修斯-监控神器功能: 在业务层用作埋点系统 Prometheus支持多种语言(Go,java,python,ruby官方提供客户端,其他语言有第三方开源客户端).我们可以通过客户 ...
java计算接口调用时间
方法一: LocalDateTime beginTime = LocalDateTime.now(); Long opetime = Duration.between(between,LocalDat ...

使用selenium实现站长素材图片采集

使用selenium实现站长素材图片采集的更多相关文章

随机推荐

热门专题