python selenium爬虫工具

今天seo的同事需要一个简单的爬虫工具，根据一个url地址，抓取改页面的a连接，然后进入a连接里面的页面再次抓取a连接

1.需要一个全局的set([])集合来保存抓取的url地址

2.由于现在单页面也来越多，所以我们借用selenium来抓取页面内容，由于页面内容比较多，我们程序需要将滚动条滚到最下面，如：driver.execute_script("return document.body.scrollHeight;")

3.需要查找页面的超链接 driver.find_elements_by_xpath("//a[@href]")

4.为了便于查看数据记录，每抓取一个地址就记录到日志中去（曾经尝试过爬网完毕后再记录，但是爬网时间太长，一旦出现异常就一条记录都没有了）

整个代码如下：

from selenium import webdriver

from selenium.webdriver.firefox.options import Options

from selenium.common.exceptions import TimeoutException

import time

import datetime

from urllib import parse

import os

urls = set([])

def getUrl(url,host):

    driver = webdriver.Ie()

    try:

       #driver = webdriver.Firefox()

        driver.set_page_load_timeout()

        driver.get(url)

        #time.sleep()

        all_window_height = []

        all_window_height.append(driver.execute_script("return document.body.scrollHeight;"))

        while True:

            driver.execute_script("scroll(0,100000)")

            time.sleep()

            check_height = driver.execute_script("return document.body.scrollHeight;")

            if check_height == all_window_height[-]:

                print("我已下拉完毕")

                break

            else:

                all_window_height.append(check_height)

                print("我正在下拉")

        #for link in driver.find_elements_by_xpath("//*[@href]"):

        #for link in driver.find_elements_by_tag_name("a"):

        for link in driver.find_elements_by_xpath("//a[@href]"):

            try:

                tempurl1=link.get_attribute('href')

                if tempurl1.startswith("http"):

                    if tempurl1 not in urls:

                        urls.add(tempurl1)

                        log(host,url+','+tempurl1)

                        print(tempurl1)

            except:

                print(link)

    except Exception as e:

        print(e)

    finally:

        driver.quit()

def log(name,msg):

    filename='D://'+name+'.csv'

    if not os.path.exists(filename):

        with open(filename,'w') as f:

            print('create file:'+filename)

            f.write('parentUrl,currenturl'+'\n')

        f.close()

    with open(filename,'a') as f:

        f.write(msg+'\n')

    f.close()

url= input("Enter a url")

try:

    urls.clear()

    url= url.strip()

    if len(url)>:

        host =parse.urlparse(url).netloc

        print(url+"下面的连接:")

        t1=datetime.datetime.now()

        getUrl(url,host)

        l=list(urls)

        for item in l:

            print(item+"下面的连接:")

            getUrl(item,host)

        t2=datetime.datetime.now()

        tt =(t2-t1).seconds

        minutes=tt//

        seconds=tt%

    print("total cost %d minutes %d seconds" % (minutes,seconds))

except Exception as e:

    print(e)

然后运行pyinstaller -F a.py 打包

关于selenium 的IE 可以参考https://blog.csdn.net/ma_jiang/article/details/96022775

python selenium爬虫工具的更多相关文章

Python selenium爬虫实现定时任务过程解析
现在需要启动一个selenium的爬虫,使用火狐驱动+多线程,大家都明白的,现在电脑管家显示CPU占用率20%,启动selenium后不停的开启浏览器+多线程, 好,没过5分钟,CPU占用率直接拉到9 ...
Python+Selenium爬虫实战一《将QQ今日话题发布到个人博客》
前提条件: 1.使用Wamp Server部署WordPress个人博客,网上资料较多,这里不过多介绍思路: 1.首先qq.com首页获取到今日话题的的链接: 2.通过今日话题链接访问到今日话题,并 ...
Python 爬虫实例（12）—— python selenium 爬虫
# coding:utf- from common.contest import * def spider(): url = "http://www.salamoyua.com/es/sub ...
python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
Python selenium自动化网页抓取器
(开开心心每一天~ ---虫瘾师) 直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击.跳转页面.搜索框的输入.页面的价值数据存储.mongodb自动i ...
Python selenium 滚动条详解
在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的. selenium.common ...
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱（转）
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...
【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...
python网络爬虫之自动化测试工具selenium[二]
目录前言一.获取今日头条的评论信息(request请求获取json) 1.分析数据 2.获取数据二.获取今日头条的评论信息(selenium请求获取) 1.分析数据 2.获取数据房源案例(仅供 ...

随机推荐

Jenkins 任务定时
在项目配置中选择 Build Triggers 下勾选 Build periodically,可以对项目进行定时构建设置.构建设置详细可通过右边的问号符号进行查看. 定时构建字段遵循 cron 的语法 ...
剑指：最小的k个数
题目描述输入 n 个整数,找出其中最小的 K 个数.例如输入 4,5,1,6,2,7,3,8 这 8 个数字,则最小的 4 个数字是 1,2,3,4. 解法解法一利用快排中的 partition ...
转摘python3.4 + pycharm 环境安装 + pycharm使用
遇到很多初学者的盆友,来问python环境安装的问题..因此,这篇文章就诞生了.. 因个人是windows的环境,所以本文只讲windows环境下的python安装. 作为初用python的盆友,强烈 ...
C# Net 去除图片白边
代码根据别人的进行改写,效果更好直接拷贝使用名称空间: using System.Drawing; 代码: /// <summary> /// 裁剪图片(去掉百边) /// </ ...
win10自带截屏操作
1.win+shift+S,自由截屏 2.win+W,截屏后编辑 3.alt+PrtSc,截取当前活动界面,鼠标在微信就是微信,在浏览器就是浏览器.在桌面就是所有界面. 4.PrtScn,截取所有屏幕 ...
python调用函数设置超时机制
有时候需要给函数设置超时机制,以防止它卡住我们的程序,这里可以用python的signal模块,signal模块可以实现程序内部的信号处理. # coding:utf8 import time imp ...
kernel: nfsd: too many open TCP sockets, consider increasing the number of threads
在/var/log/syslog中看到如下报错: kernel: nfsd: too many open TCP sockets, consider increasing the number o ...
rollup入门
作为js程序员,掌握rollup是必要的. 有了webpack后,为什么还要用rollup, 因为webpack不专业,webpack是打包一切. rollup只为打包js而生. rollup通过的五 ...
Nginx+Tomcat实现动静分离和负载均衡
一.什么是动静分离? Nginx动静分离简单来说就是把动态和静态请求分开,不能理解成只是单纯的把动态页面和静态页面物理分离.严格意义上说应该是将动态请求和静态请求分开,可以理解成使用Nginx处理静态 ...
wordpress调用指定类型post_type的文章
wordpress很强大,可以添加多种post_type文章类型,假如我们要调用product产品模型的文章要如何操作呢?随ytkah一起来看看吧.我们用'post_type' => 'prod ...

python selenium爬虫工具

python selenium爬虫工具的更多相关文章

随机推荐

热门专题