from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.common.exceptions import NoSuchElementException
from lxml import etree
import time, json JD_URL_Login = "https://www.jd.com/" class CustomizeException(Exception):
def __init__(self, status, msg):
self.status = status
self.msg = msg class JD:
def __init__(self):
self.browser = None
self.__init_browser() def __init_browser(self):
options = Options()
options.add_argument("--headless")
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 设置为无图模式
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
self.browser = webdriver.Chrome(options=options)
# 设置浏览器最大化窗口
self.browser.maximize_window()
# 隐式等待时间为3s
self.browser.implicitly_wait(3)
self.browser.get(JD_URL_Login)
self.wait = WebDriverWait(self.browser, 10) def __search_goods(self, goods):
'''搜索商品的方法'''
self.file = open("jd-{}.json".format(goods), "a", encoding="utf-8")
self.wait.until(EC.presence_of_all_elements_located((By.ID, "key")))
serach_input = self.browser.find_element_by_id("key")
serach_input.clear()
serach_input.send_keys(goods, Keys.ENTER) def __get_goods_info(self, page_source):
'''从网页源码中获取到想要的数据'''
selector_html = etree.HTML(page_source)
# 商品名字 不要获取title属性,以后再改吧,最好是获取到商品名的文本内容
goods_name = selector_html.xpath("//div[@class='gl-i-wrap']//div[contains(@class,'p-name')]/a/@title") # 商品价格
goods_price = selector_html.xpath("//div[@class='gl-i-wrap']//div[@class='p-price']/strong/i/text()") # 商品评价数量
comment_num_selector = selector_html.xpath("//div[@class='p-commit']/strong")
comment_num = [selector.xpath("string(.)") for selector in comment_num_selector] # 商品店铺
shop_name = selector_html.xpath("//a[@class='curr-shop']/text()") goods_zip = zip(goods_name, goods_price, comment_num, shop_name)
for goods_info in goods_zip:
dic = {}
dic["goods_name"] = goods_info[0]
dic["goods_price"] = goods_info[1]
dic["comment_num"] = goods_info[2]
dic["shop_name"] = goods_info[3]
# print("商品名字>>:", goods_info[0])
# print("商品价格>>:", goods_info[1])
# print("商品评价数量>>:", goods_info[2])
# print("商品店铺>>:", goods_info[3])
# print("*" * 100)
yield dic def __swipe_page(self):
'''上下滑动页面,将完整的网页源码返回'''
height = self.browser.execute_script("return document.body.scrollHeight;")
js = "window.scrollTo(0, {});".format(height)
self.browser.execute_script(js)
while True:
time.sleep(1)
now_height = self.browser.execute_script("return document.body.scrollHeight;")
if height == now_height:
return self.browser.page_source
js = "window.scrollTo({}, {});".format(height, now_height)
self.browser.execute_script(js)
height = now_height def __is_element_exists(self, xpath):
'''检测一个xpath是否能够找到'''
try:
self.browser.find_element_by_xpath(xpath=xpath)
return True
except NoSuchElementException:
return False def __click_next_page(self):
'''点击下一页,实现翻页功能'''
self.wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "pn-next")))
xpath = "//a[@class='pn-next']"
if not self.__is_element_exists(xpath):
raise CustomizeException(10000, "该商品访问完毕")
self.browser.find_element_by_xpath(xpath).click() def __write_to_json(self, dic: dict):
data_json = json.dumps(dic, ensure_ascii=False)
self.file.write(data_json + "\n") def run(self, goods):
self.__search_goods(goods)
n = 1
while True:
print("正在爬取商品 <{}>---第{}页......".format(goods, n))
time.sleep(3)
html = self.__swipe_page()
for dic in self.__get_goods_info(html):
self.__write_to_json(dic)
try:
self.__click_next_page()
except CustomizeException:
try:
goods = goods_list.pop(0)
self.run(goods)
except IndexError:
return
n += 1 def __del__(self):
self.browser.close()
self.file.close() if __name__ == '__main__':
jd = JD()
goods_list = ["纯牛奶", "酸奶", "奶茶", "床上用品", "电磁炉", "电视", "小米笔记本", "华硕笔记本", "联想笔记本", "男士洗面奶", "女士洗面奶", "沐浴露", "洗发露",
"牙刷", "牙膏", "拖鞋", "剃须刀", "水手服", "运动服", "红龙果", "苹果", "香蕉", "洗衣液", "电饭煲"]
try:
goods = goods_list.pop(0)
except IndexError:
raise CustomizeException(20000, "goods_list不能为空")
try:
jd.run(goods)
finally:
del jd

python3爬虫-通过selenium获取到dj商品的更多相关文章

  1. python3爬虫-通过selenium获取TB商品

    from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from seleni ...

  2. Python3.x:selenium获取iframe内嵌页面的源码

    Python3.x:selenium获取iframe内嵌页面的源码 前言 在一些网页中经常会看到ifrmae/frame标签,iframe是嵌入式框架一般用来在已有的页面中嵌入另一个页面,当一个元素在 ...

  3. 小白学 Python 爬虫:Selenium 获取某大型电商网站商品信息

    目标 先介绍下我们本篇文章的目标,如图: 本篇文章计划获取商品的一些基本信息,如名称.商店.价格.是否自营.图片路径等等. 准备 首先要确认自己本地已经安装好了 Selenium 包括 Chrome ...

  4. python爬虫——用selenium爬取京东商品信息

    1.先附上效果图(我偷懒只爬了4页)  2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...

  5. python3爬虫-通过requests获取安居客房屋信息

    import requests from fake_useragent import UserAgent from lxml import etree from http import cookiej ...

  6. 爬虫之selenium爬取京东商品信息

    import json import time from selenium import webdriver """ 发送请求 1.1生成driver对象 2.1窗口最大 ...

  7. python3 [爬虫实战] selenium 爬取安居客

    我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情 一开始直接用requests库进行网站的爬取,会访问不到数据的, ...

  8. 【Python3爬虫】selenium入门

    selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Fire ...

  9. python3爬虫-通过selenium登陆拉钩,爬取职位信息

    from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from se ...

随机推荐

  1. C/S模式下的打印方法

     C/S模式使用润乾报表时有两种打印方法(都使用设计器授权) 1.         使用加密狗打印 这种方式需要使用加密狗,适用于客户端较少时 2.         使用api调用打印方法实现打印 ...

  2. 带你从零学ReactNative开发跨平台App开发(五)

    ReactNative跨平台开发系列教程: 带你从零学ReactNative开发跨平台App开发(一) 带你从零学ReactNative开发跨平台App开发(二) 带你从零学ReactNative开发 ...

  3. 软工读书笔记 week 6 ——《疯狂的程序员》Part 1

    这本小说以主人公绝影上大学后初次接触编程开始讲起,这周主要看的就是绝影还在大学的那段经历,虽然故事背景很多年前,但很多地方仍然会引发我的共鸣. 第一个梦想 在“第一个梦想”一节讲了作业布置做一个通讯录 ...

  4. [Asp.net mvc]Asp.net mvc 中使用LocalStorage

    目前使用比较多的本地存储方案有比如Flash SharedObject.Google Gears.Cookie.LocalStorage.User Data.Open Database等方案.综合比较 ...

  5. geogebra几何画图工具用法

    1. intersectPath :该命令可以自动“算出”对应多边形的交汇区域 2. 静态文本可以指定到一个对象的中间这样将来动态变化对象大小时也不出现问题 3.export worksheet 4. ...

  6. Azure 和 Linux

    Azure 正在不断集结各种集成的公有云服务,包括分析.虚拟机.数据库.移动.网络.存储和 Web,因此很适合用于托管解决方案. Azure 提供可缩放的计算平台,允许即用即付,而无需投资购买本地硬件 ...

  7. 查询会龄 sql部分

      AND (       case when ${fld:vc_age} = '1' then ((current_date-d.c_idate::date)/30)<3       when ...

  8. Sharepoint 2013/2010 登陆身份验证

    SharePoint 2013 and SharePoint 2010登陆身份验证格式: <IdentityClaim>:0<ClaimType><ClaimValueT ...

  9. codeforces 1007B Pave the Parallelepiped

    codeforces 1007B Pave the Parallelepiped 题意 题解 代码 #include<bits/stdc++.h> using namespace std; ...

  10. CSS 构造表格

    表格边框 CSS 中设置表格边框,请使用 border 属性: <style type="text/css"> table{ border:1px solid red; ...