selenium_采集药品数据2_采集所有表格

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

# -*- coding: utf-8 -*-

"""

Created on Sat May  7 09:32:30 2016

@author: daxiong

"""

import requests,bs4,csv,time,selenium,random

from selenium import webdriver

site1="http://118.114.237.85:8081/searchbio.aspx"

charset="gb2312"

pages=196

browser=webdriver.Firefox()

browser.get(site1)

elems=browser.find_elements_by_class_name("tb")

elems1= elems[1:]

content=[i.text for i in elems1]

#获取一页的表格内容

def Get_one_table():

    elems=browser.find_elements_by_class_name("tb")

    elems1= elems[1:]

    content=[i.text for i in elems1]

    return content

#功能：将list对象N等分

def div_list(ls,n):

    if not isinstance(ls,list) or not isinstance(n,int):

        return []

    ls_len = len(ls)

    if n<=0 or 0==ls_len:

        return []

    if n > ls_len:

        return []

    elif n == ls_len:

        return [[i] for i in ls]

    else:

        j = int(ls_len/n)

        ls_return = []

        for i in range(0,(n-1)*j,j):

            ls_return.append(ls[i:i+j])

        #算上末尾的j+k

        ls_return.append(ls[(n-1)*j:])

        return ls_return 

#把一页内容写入csv文档

def Write_table_to_csv(fileName,list_tableContent):

    #对列表格式修改，字符串写入的格式不对

    file=open(fileName,'w',newline='')

    writer1=csv.writer(file)

    writer1.writerows(list_tableContent)

    file.close()          

#点击下一页

def Click_next_page():

    linkElem=browser.find_element_by_link_text("下一页")

    linkElem.click()

for i in range(1,pages+1):

    list_tableContent=Get_one_table()

    list_tableContent1=div_list(list_tableContent,20)

    fileName=str(i)+".csv"

    Write_table_to_csv(fileName,list_tableContent1)

    Click_next_page()

    time.sleep(random.randint(0,5))

版本3

加入多线程采集

selenium_采集药品数据2_采集所有表格的更多相关文章

selenium_采集药品数据1_采集第一页表格
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
selenium_采集药品数据
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Django项目：CMDB(服务器硬件资产自动采集系统)--12--08CMDB采集硬件数据日志记录
#settings.py # ————————01CMDB获取服务器基本信息———————— import os BASEDIR = os.path.dirname(os.path.dirname(o ...
C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel, ...
Gobblin采集kafka数据
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处找时间记录一下利用Gobblin采集kafka数据的过程,话不多说,进入正题一.Gobblin ...
API例子：用Python驱动Firefox采集网页数据
1,引言本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器.开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scra ...
Performance Monitor采集性能数据
Performance Monitor采集性能数据 Windows本身为我们提供了很多好用的性能分析工具,大家日常都使用过资源管理器,在里面能即时直观的看到CPU占用率.物理内存使用量等信息.此外新系 ...
Python数据网络采集5--处理Javascript和重定向
Python数据网络采集5--处理Javascript和重定向到目前为止,我们和网站服务器通信的唯一方式,就是发出HTTP请求获取页面.有些网页,我们不需要单独请求,就可以和网络服务器交互(收发信息 ...
0415关于通过FILEBEAT，LOGSTASH,ES,KIBNA实现数据的采集
如何通过FILEBEAT,LOGSTASH,ES,KIBNA实现数据的采集总体参考网址:https://www.olinux.org.cn/elk/1157.html官方网址:https://www. ...

随机推荐

第三个Sprint ------第十天
上传到Github github 地址:https://github.com/be821/MyCat 百度云盘: 链接: http://pan.baidu.com/s/1hrxL6lu 密码: k9t ...
Daily Scrum 12-25
Meeting Minutes 针对设计师提出的问题完成了layout的微调: 讨论alpha测试反馈反映出的一些问题: 完成了代码的merge(与bing词典 1.5版本): Progress ...
python中的文件读写（open()函数、with open('file_directory','r') as f:、read()函数等）
python中也有文件读写,通过调用内置的读写函数.可以完成文件的打开/关闭.读.写入.追加等功能. open()函数 open()函数为python中的打开文件函数,使用方式为: f = open( ...
使用matlab自带工具实现rcnn
平台:matlab2016b matlab自带一个cifar10Net工具可用于深度学习. 图片标注这里使用的是matlab自带的工具trainingImageLabeler对图像进行roi的标注. ...
HTML 5 placeHolder
<html> <body> <input type="text" id="idNum" placeholder="pla ...
Classification Truth Table
在机器学习中对于分类结果的描述,一般有四种:true positive, true negative, false positive 和 false negative. Precision, Reca ...
laravel orm 中的一对多关系 hasMany
个人对于laravel orm 中对于一对多关系的理解文章表 article,文章自然可以评论,表 comment 记录文章的评论,文章和评论的关系就是一对多,一篇文章可以有多个评论. 在 comm ...
Linux 改变文件属性与权限
常用的修改文件组或文件的命令有三个:chgrp.chown.chmod. 1 chgrp 改变文件所属的用户组改变一个文件的用户组直接以chgrp来改变即可,这个命令时change group 的简 ...
判断Excel版本信息
可以通过获取application对应的Version属性获取当前打开的Excel的版本信息(Application.Version).
laravel5 报错419，form 添加crrf_field 后让然失败，本地环境配置问题
这个是因为laravel自带CSRF验证的问题解决方法方法一:去关掉laravel的csrf验证,但这个人不建议,方法也不写出来了. 方法二:把该接口写到api.php上就好了方法三: 首先在页 ...

selenium_采集药品数据2_采集所有表格

selenium_采集药品数据2_采集所有表格的更多相关文章

随机推荐

热门专题