使用selenium+BeautifulSoup 抓取京东商城手机信息

1.准备工作：

chromedriver 传送门：国内：http://npm.taobao.org/mirrors/chromedriver/ vpn:
selenium
BeautifulSoup4(美味汤)

pip3 install selenium

pip3 install BeautifulSoup4

　　chromedriver 的安装请自行百度。我们直奔主题。

起飞前请确保准备工作以就绪...

2.分析网页：

　目标网址：https://www.jd.com/

所有item均保存在class="gl-item"里面

需求：

使用selenium 驱动浏览器自动侦测到input输入框，输入框中输入“手机”,点击搜索按钮.
使用seleinum抓取发挥页面的总页码，并模拟手动翻页
使用BeautifulSoup分析页面，抓取手机信息

从入口首页进入查询状态

 # 定义入口查询界面

 def search():

     browser.get('https://www.jd.com/')

     try:

         # 查找搜索框及搜索按钮，输入信息并点击按钮

         input = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#key")))

         submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#search > div > div.form > button")))

         input[0].send_keys('手机')

         submit.click()

         # 获取总页数

         page = wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, '#J_bottomPage > span.p-skip > em:nth-child(1) > b')))

         return page[0].text

     # 如果异常，递归调用本函数

     except TimeoutException:

         search()

查询结束后模拟翻页

 # 翻页

 def next_page(page_number):

     try:

         # 滑动到网页底部，加载出所有商品信息

         browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

         time.sleep(4)

         html = browser.page_source

         # 当网页到达100页时，下一页按钮失效，所以选择结束程序

         while page_number == 101:

             exit()

         # 查找下一页按钮，并点击按钮

         button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_bottomPage > span.p-num > a.pn-next > em')))

         button.click()

         # 判断是否加载到本页最后一款产品Item(每页显示60条商品信息)

         wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "#J_goodsList > ul > li:nth-child(60)")))

         # 判断翻页成功

         wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#J_bottomPage > span.p-num > a.curr"), str(page_number)))

         return html

     except TimeoutException:

         return next_page(page_number)

解析页面上的a标签

# 解析每一页面上的a链接

def parse_html(html):

    """

    解析商品列表网页,获取商品的详情页

    """

    soup = BeautifulSoup(html, 'html.parser')

    items = soup.select('.gl-item')

    for item in items:

        a = item.select('.p-name.p-name-type-2 a')

        link = str(a[0].attrs['href'])

        if 'https:' in link:

            continue

        else:

            link = "https:"+link

        yield link

根据url 截取商品id 获取价格信息

# 获取手机价格，由于价格信息是请求另外一个地址https://p.3.cn/prices/mgets?skuIds=J_+product_id

def get_price(product_id):

    url = 'https://p.3.cn/prices/mgets?skuIds=J_' + product_id

    response = requests.get(url,heeders)

    result = ujson.loads(response.text)

    return result

进入item商品详情页

# 进入详情页

def detail_page(link):

    """

    进入item详情页

    :param link: item link

    :return: html

    """

    browser.get(link)

    try:

        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        time.sleep(3)

        html = browser.page_source

        return html

    except TimeoutException:

        detail_page(link)

 # 获取详情页的手机信息

 def get_detail(html,result):

     """

     获取详情页的数据

     :param html:

     :return:

     """

     dic ={}

     soup = BeautifulSoup(html, 'html.parser')

     item_list = soup.find_all('div', class_='Ptable-item')

     for item in item_list:

         contents1 = item.findAll('dt')

         contents2 = item.findAll('dd')

         for i in range(len(contents1)):

             dic[contents1[i].string] = contents2[i].string

     dic['price_jd '] = result[0]['p']

     dic['price_mk '] = result[0]['m']

     print(dic)

滴滴滴.. 基本上的思路就酱紫咯.. 传送门依旧打开直github: https://github.com/shinefairy/spider/

end~

使用selenium+BeautifulSoup 抓取京东商城手机信息的更多相关文章

asp.net mvc 抓取京东商城分类
555 asp.net mvc 抓取京东商城分类 URL:http://www.jd.com/allSort.aspx 效果: //后台代码 public ActionResult Get ...
如何利用BeautifulSoup选择器抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了.不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演 ...
如何利用Xpath抓取京东网商品信息
前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~ HTML文件其实就是由一组尖括号构成的 ...
如何利用CSS选择器抓取京东网商品信息
前几天小编分别利用Python正则表达式.BeautifulSoup.Xpath分别爬取了京东网商品信息,今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~ CSS选择器目前 ...
Scrapy实战篇（四）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...
Scrapy实战篇（五）爬取京东商城文胸信息
创建scrapy项目 scrapy startproject jingdong 填充 item.py文件在这里定义想要存储的字段信息 import scrapy class JingdongItem ...
php+phpquery简易爬虫抓取京东商品分类
这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫.phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样:如果你 ...
Scrapy实战篇（八）之Scrapy对接selenium爬取京东商城商品数据
本篇目标:我们以爬取京东商城商品数据为例,展示Scrapy框架对接selenium爬取京东商城商品数据. 背景: 京东商城页面为js动态加载页面,直接使用request请求,无法得到我们想要的商品数据 ...
Python脚本抓取京东手机的配置信息
以下代码是使用python抓取京东小米8手机的配置信息首先找到小米8商品的链接:https://item.jd.com/7437788.html 然后找到其配置信息的标签,我们找到其配置信息的标签为 ...

随机推荐

canvas绘制随机颜色的柱形图
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
memcpy不能复制内存重叠区域，memmove可以拷贝重叠内存
http://blog.csdn.net/li_ning_/article/details/51418400 下面s和s2指向的内存区域有重叠,memcpy不能正确复制,src赋值给dst时,可能会修 ...
Mac apache You don't have permission to access / on this server.
在mac下配置完apache和php环境后,通过localhost访问页面,出现403Forbidden.页面提示: Forbidden You don't have permission to ac ...
CCNA 之二 OSI七层模型
OSI网际互联 OSI的概念英文全称Open System Interconnect 开放系统互联参数模型,是由ISO国际标准化组织定义的.它是个灵活的.稳健的和可互操作的模型,并不是协议,使用来 ...
Codeforces - 1088B - Ehab and subtraction - 堆
https://codeforc.es/contest/1088/problem/B 模拟即可. #include<bits/stdc++.h> using namespace std; ...
python学习第十五天字典的创建及增删改查操作方法
字典是python比较常见的数据类型,跟列表一样,比如的字典的创建,字典的常见的操作的方法,增加,删除,修改,查找等方法,字典的一共的数据方法为 keys() values() fromkeys() ...
求解：为什么impala实现hive查询可以使用ifnull()函数，不可以使用length() 函数
求大神解惑,找了很久都没有找到为什么??? hive支持length() 函数,不支持ifnull()函数??? impala实现hive查询支持ifnull()函数,不支持length() 函数 ...
vue 实现模糊检索，并根据其他字符的首字母顺序排列
昨天让我做一个功能,实现一个模糊检索,我就想,那做呗,然后开始正常的开发代码如下: HTML VUE 因为是实时的,所以写了将逻辑写到了watch中五分钟搞定. 我以为这就完了,然而产品的需求 ...
python 子类继承父类__init__（转载）
转载: http://www.jb51.net/article/100195.htm 前言使用Python写过面向对象的代码的同学,可能对 __init__ 方法已经非常熟悉了,__init__方法 ...
Python Web开发:Django+BootStrap实现简单的博客项目
创建blog的项目结构关于如何创建一个Django项目,请查看[Python Web开发:使用Django框架创建HolleWorld项目] 创建blog的数据模型创建一个文章类所有开发都是数据 ...

使用selenium+BeautifulSoup 抓取京东商城手机信息

1.准备工作：

2.分析网页：

需求：

使用selenium+BeautifulSoup 抓取京东商城手机信息的更多相关文章

随机推荐

热门专题