selenium之京东商品爬虫

#今日目标

**selenium之京东商品爬虫**

自动打开京东首页，并输入你要搜索的东西，进入界面进行爬取信息

```

from selenium import webdriver

import time

class JdSpider(object):

    def __init__(self):

        self.browser=webdriver.Chrome()

        self.url='http://www.jd.com/'

        self.i=0

    #获取商品

    def get_page(self):

        #打开京东

        self.browser.get(self.url)

        #找两个节点

        self.browser.find_element_by_xpath('//*[@id="key"]').send_keys('Python书籍')

        self.browser.find_element_by_xpath('//*[@id="search"]/div/div[2]/button').click()

        #留出时间给页面加载

        time.sleep(2)

    #解析页面

    def  parse_page(self):

        # 把下拉菜单拉到底部,执行JS脚本

        self.browser.execute_script(

            'window.scrollTo(0,document.body.scrollHeight)'

        )

        time.sleep(2)

        #匹配所有商品节点对像列表

        li_list=self.browser.find_elements_by_xpath('//*[@id="J_goodsList"]/ul/li')

        for li in li_list:

            info = li.text.split('\n')

            if info[0].startswith('每满'):

                price=info[1]

                name=info[2]

                number=info[3]

                market=info[4]

            elif info[0]=='单价':

                price = info[3]

                name = info[4]

                number = info[5]

                market = info[6]

            elif info[0].startswith('￥') and info[1].startswith('￥'):

                price = info[0]

                name = info[2]

                number = info[3]

                market = info[4]

            else:

                price = info[0]

                name = info[1]

                number = info[2]

                market = info[3]

            print(price,number,market,name)

            self.i += 1

    def main(self):

        self.get_page()

        while True:

            self.parse_page()

            #判断是否为最后一页

            if self.browser.page_source.find('pn-next disabled')==-1:

                # 不是最后一页，点击下一页

                self.browser.find_element_by_class_name('pn-next').click()

                time.sleep(3)

            else:

                break

        print(self.i)

if __name__ == '__main__':

    spider=JdSpider()

    spider.main()

```

selenium之京东商品爬虫的更多相关文章

一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
爬虫之selenium爬取京东商品信息
import json import time from selenium import webdriver """ 发送请求 1.1生成driver对象 2.1窗口最大 ...
Python之爬虫-京东商品
Python之爬虫-京东商品 #!/usr/bin/env python # coding: utf-8 from selenium import webdriver from selenium.we ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
e2e 自动化集成测试架构实例 WebStorm Node.js Mocha WebDriverIO Selenium Step by step （一）京东商品搜索
之前有发布一篇文章“e2e 自动化集成测试环境搭建 Node.js Selenium WebDriverIO Mocha Node-Inspector”, 主要是讲了,如何搭建环境, 其中开发环境使 ...
python制作爬虫爬取京东商品评论教程
作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...

随机推荐

信息提示框：MessageBox
一函数原型及参数 function MessageBox(hWnd: HWND; Text, Caption: PChar; Type: Word): Integer; 1.参数列表 hW ...
bytes和bytearray总结
The core built-in types for manipulating binary data are bytes and bytearray. They are supported by ...
sklearn可实现的函数或者功能可分为如下几个方面
1.分类算法2.回归算法3.聚类算法4.降维算法5.模型优化6.文本预处理其中分类算法和回归算法又叫监督学习,聚类算法和降维算法又叫非监督学习分类算法 1 2 3 4 5 6 7 8 9 10 1 ...
nginx+uWSGI+django+virtualenv+supervisor发布web服务器流程
导论 WSGI是Web服务器网关接口.它是一个规范,描述了Web服务器如何与Web应用程序通信,以及Web应用程序如何链接在一起以处理一个请求,(接收请求,处理请求,响应请求)基于wsgi运行的框架有 ...
用了 EventBus 不要多用其他的通讯功能
EventBus是一个Android端优化的publish/subscribe消息总线,简化了应用程序内各组件间.组件与后台线程间的通信.主要功能是替代Intent,Handler,BroadCast
idea 下运行安卓项目
修改 gralde 路径修改安卓sdk路径进入project structure 设置 Project settings / Project /project SDK 选择 Android API 2 ...
XStream详解
XStream的作用 XStream可以把JavaBean对象转换成XML! 通常服务器向客户端响应的数据都是来自数据库的一组对象,而我们不能直接把对象响应给客户端,所以我们需要把对象转换成XML再响 ...
跨IDC ycache原理和配置说明
总体介绍: 多idc缓存方案的invalid方案(如下图),是通过两个操作保证多个idc之间的缓存的高可用性和最终一致性的. 更新数据库后,发送invalid消息:invalid消息广播到其他id ...
[SQL语句的常用统计函数]
1. upper() 转化为大写 Lower() 转化为小写 SELECT UPPER(列名称) FROM 表名称 SELECT LOWER(列名称) FROM 表名称 2. Sum ...
Android6.0运行时权限的处理Demo
MainActivity.java package com.loaderman.permissionsdemo; import android.Manifest; import android.con ...

selenium之京东商品爬虫

selenium之京东商品爬虫的更多相关文章

随机推荐

热门专题