selenium爬去数据+存储

1 爬去数据代码

#coding=utf-8

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

#加载TimeoutException模块，用于进行超时处理

from selenium.common.exceptions import TimeoutException

#正则表达式

import re,sys

from pyquery import PyQuery as pq

from config import *

#加载数据库操作模块

import mysqlOp 

driver=webdriver.Chrome()

#使用phantomJs浏览器驱动

#driver=webdriver.PhantomJS()

driver.get("https://www.taobao.com")

driver.set_window_size(1400,900)

wait=WebDriverWait(driver, 10)

def search():

        try:

                input=wait.until(EC.presence_of_element_located(By.CSS_SELECTOR,"#q"))

                submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#J_TSearchForm > div.search-button > button")))

                input.clear()

                input.send_keys("美食")

                submit.click()

                #获取第一页的数据

                get_goods()

        except TimeoutException :

                search()

#获取总页码

def get_total():

        #查找总页码

        total=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.total")))

        return total.text

#翻页

def next_page(page):

        try:

                input=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input")))

                submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit")))

                input.clear()

                input.send_keys(page)

                submit.click()

                wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,"#mainsrp-pager > div > div > div > ul > li.item.active > span"),str(page)))

                #获取当前页的数据

                count=get_goods()

        except TimeoutException:

               next_page(page)

        return count

def get_goods():

        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-itemlist .items .item")))

        #mainsrp-itemlist > div > div > div:nth-child(1) > div.item.J_MouserOnverReq.item-ad

        #mainsrp-itemlist > div > div > div:nth-child(1)

        html=driver.page_source

        doc=pq(html)

        items=doc("#mainsrp-itemlist .items .item").items()

        count=0

        for item in items:

                goods={

                    'image':item.find('.pic .img').attr('src'),

                    'price':item.find('.price').text(),

                    'deal' :item.find('.deal-cnt').text()[:-3],

                    'title':item.find('.title').text(),

                    'shop':item.find('.shop').text(),

                    'location':item.find('.location').text()

                }

                print(goods)

                #将数据插入数据库

                mysqlOp.mysqlOp(goods)

                count+=1

        return count

def main():

        search()

        total=get_total()

        #使用正则表达式提取页码

        total=int(re.compile(r"(\d+)").search(total).group(1))

        print(total)

        total_count=0

        for i in range(2,total+1):

                count=next_page(i)

                total_count +=count

        print(total_count)

if __name__=="__main__":

        main()

2 存入到mysql中

创建一个mysqlOp.py的文件

#coding=utf-8

from pymysql import *

def mysqlOp(goods):

        conn=connect(host='127.0.0.1', port=3306, user='root', passwd='1qaz2wsx#EDC', db='taobao_meishi', charset='utf8')

        cursor=conn.cursor()

        cursor.execute("insert into goods(image,price,deal,title,shop,location) values(%s,%s,%s,%s,%s,%s)",(goods['image'],goods['price'],goods['deal'],goods['title'],goods['shop'],goods['location']))

        conn.commit()

        cursor.close()

        conn.close()

selenium爬去数据+存储的更多相关文章

（完整）爬取数据存储之TXT、JSON、CSV存储
一.文件存储 1. TXT文本存储例:知乎发现页面,获得数据存成TXT文本 import requests from pyquery import PyQuery as pq url="h ...
学习爬虫的day03 (通过代理去爬去数据)
代理的IP通过去网上找# -*- coding: utf-8 -*- import re import _thread from time import sleep, ctime from urlli ...
scrapy使用PhantomJS和selenium爬取数据
1.phantomjs 安装下载:http://phantomjs.org/download.html 解压: tar -jxvf phantomjs--linux-x86_64.tar.bz2 重 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
R中使用rvest爬取数据小试
总结R中使用 xpath 和 css selectors 获取标签内容(xpath功能强大,而CSS选择器通常语法比较简洁,运行速度更快些) 例:抓取下面标签的内容: <h3 class=&qu ...
python3下scrapy爬虫(第九卷:scrapy数据存储进JSON文件）
将爬取数据存储在JSON文件里并不难,只需修改pipelines文件直接看代码: 来看下结果: 中文字符恶心的很之后我会在后卷中做出修改
使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写my ...
使用selenium爬取网站动态数据
处理页面动态加载的爬取 selenium selenium是python的一个第三方库,可以实现让浏览器完成自动化的操作,比如说点击按钮拖动滚轮等环境搭建: 安装:pip install selen ...

随机推荐

ubuntu18.04误删apt-get命令恢复总结
1.背景由于使用aptitude命令替换了apt-get命令后感到后悔,想要恢复apt-get命令,特此总结以下踩过的坑 aptitude和apt-get的区别:https://www.cnblog ...
在NBA我需要翻译适配器模式
17.1 在NBA我需要翻译! 17.2 适配器模式 Adapter,将一个类的接口转换成客户希望的另外一个接口,Adapter模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作, 有些国家 ...
Vue 项目中外部js 如何获取 vue 实例
1.将main.js 中的 Vue 实例暴露出去 2.在外部js中导入main.js ( import vm from '../main' );
木兰国产编程语言 Mulan--附带下载地址
我国自主研发的编程语言:木兰. 中国新闻网 : http://www.cas.cn/cm/202001/t20200116_4731821.shtml 说明介绍百度一番后,发现没有下载地址,没有官 ...
(办公)记事本_linux压缩命令
参考谷粒学院的linux视频教程:http://www.gulixueyuan.com/course/300/task/7091/show 在Linux中可以识别的常见的压缩格式有十几种,比如&quo ...
纪中10日T1 2313. 动态仙人掌
纪中10日 2313. 动态仙人掌 (File IO): input:dinosaur.in output:dinosaur.out 时间限制: 1500 ms 空间限制: 524288 KB 具 ...
P1478 陶陶摘苹果（升级版）（sort()，时间优化，priority_queue）
题目描述又是一年秋季时,陶陶家的苹果树结了 n 个果子.陶陶又跑去摘苹果,这次他有一个 a 公分的椅子.当他手够不着时,他会站到椅子上再试试. 这次与 NOIp2005 普及组第一题不同的是:陶陶之 ...
Markdown 的效果
这是一级标题这是二级标题这是三级标题这是四级标题这是五级标题这是六级标题这是加粗的文字这是倾斜的文字这是斜体加粗的文字这是加删除线的文字这是引用的内容这是引用的内容这是引用的内 ...
python三级菜单制作 day4
需求:可依次选择进入各子菜单可从任意一层往回退到上一层可从任意一层退出程序所需新知识点:列表.字典数据结构: menu = { '北京':{ '海淀':{ ...
python之路(内存,小数据池,编码等)
代码块: python真正的代码块:一个模块,一个函数,一个类,一个文件等都是一个代码块. 但是,在python终端交互模式下,每一条代码都是一个代码块 python在同一个代码块中的变量,初始化对象 ...

selenium爬去数据+存储

selenium爬去数据+存储的更多相关文章

随机推荐

热门专题