爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
import re browser = webdriver.Chrome()
wait = WebDriverWait(browser,10)
def search():
try:
browser.get("https://www.taobao.com")
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#q')))
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))
input.send_keys('美食')
submit.click()
total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))
get_products()
return total.text
except TimeoutException:
return search() def next_page(page_number):
try:
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
input.clear()
input.send_keys(page_number)
submit.click()
wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > ul > li.item.active > span'),str(page_number)))
get_products()
except TimeoutException:
next_page(page_number) def get_products():
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,"#mainsrp-itemlist .items .item")))
html = browser.page_source
doc = pq(html)
items = doc('#mainsrp-itemlist .items .item').items()
for item in items:
product = {
'image':item.find('.pic .img').attr('src'),
'price':item.find('.price').text(),
'deal':item.find('.deal-cnt').text()[:-3],
'title':item.find('.title').text(),
'shop':item.find('.shop').text(),
'location':item.find('.location').text()
}
print(product)
def main():
total = search()
total = int(re.compile('(\d+)').search(total).group(1))
for i in range(2,total + 1):
next_page(i) if __name__ == "__main__":
main()
{'title': '坚果小吃零食组合装好吃的\n美食\n休闲食品孕妇成人款散装混合一箱', 'deal': '', 'image': '//g-search1.alicdn.com/img/bao/uploaded/i4/imgextra/i4/123456239/TB2CqDhqgZC2uNjSZFnXXaxZpXa_!!0-saturn_solar.jpg_180x180.jpg', 'shop': '果木时光旗舰店', 'price': '¥\n59.80', 'location': '江苏 泰州'}
{'title': '三只松鼠 肉松饼456g传统糕点早餐点心办公室\n美食', 'deal': '', 'image': '//g-search2.alicdn.com/img/bao/uploaded/i4/i3/725677994/TB2RFQ8cZbpK1RjSZFyXXX_qFXa_!!725677994-0-sm.jpg_180x180.jpg', 'shop': '天猫超市', 'price': '¥\n26.90', 'location': '上海'}
{'title': '轩妈家蛋黄酥6枚装 红豆味雪媚娘麻薯网红糕点点心\n美食\n早餐零食', 'deal': '', 'image': '//g-search2.alicdn.com/img/bao/uploaded/i4/i4/3282604381/O1CN011iEXcnPKoV6ODRN_!!3282604381.jpg_180x180.jpg', 'shop': '轩妈食品旗舰店', 'price': '¥\n45.00', 'location': '广西 南宁'}
{'title': '【百草味零食大礼包】休闲网红小吃一箱组合整箱超大混装\n美食\n批发', 'deal': '', 'image': '//g-search3.alicdn.com/img/bao/uploaded/i4/i3/628189716/TB2w6WHdMHqK1RjSZFgXXa7JXXa_!!628189716-0-item_pic.jpg_180x180.jpg', 'shop': '百草味旗舰店', 'price': '¥\n58.90', 'location': '浙江 杭州'}
{'title': '桂花鸭南京盐水鸭1000g正宗江苏特产中秋送礼\n美食\n板鸭咸水鸭熟食', 'deal': '', 'image': '//g-search3.alicdn.com/img/bao/uploaded/i4/i2/2095703462/O1CN011bRddgG0RUsR8tR_!!2095703462.jpg_180x180.jpg', 'shop': '桂花鸭旗舰店', 'price': '¥\n52.00', 'location': '江苏 南京'}
{'title': '良品铺子零食大礼包抖音网红小吃吃货一箱组合整箱混装\n美食\n批发', 'deal': '', 'image': '//g-search3.alicdn.com/img/bao/uploaded/i4/i1/619123122/TB1ODM4ev5TBuNjSspcXXbnGFXa_!!0-item_pic.jpg_180x180.jpg', 'shop': '良品铺子旗舰店', 'price': '¥\n59.90', 'location': '湖北 武汉'}
{'title': '轩妈家蛋黄酥2盒装 红豆雪媚娘麻薯糕点点心\n美食\n早餐网红零食', 'deal': '', 'image': '//g-search2.alicdn.com/img/bao/uploaded/i4/i2/3282604381/O1CN011iEXcnzrOwKPzVy_!!3282604381.jpg_180x180.jpg', 'shop': '轩妈食品旗舰店', 'price': '¥\n89.00', 'location': '广西 南宁'}
{'title': '轩妈家蛋黄酥55g*6枚2盒手工网红糕点\n美食\n早餐零食小吃雪媚娘麻薯', 'deal': '', 'image': '//g-search3.alicdn.com/img/bao/uploaded/i4/i1/681185851/O1CN011t5nqIzARzgEZZX-681185851.jpg_180x180.jpg', 'shop': '猫诚旗舰店', 'price': '¥\n89.00', 'location': '广西 南宁'}
{'title': '南京特产金陵夫子庙小吃零食传统糕点\n美食\n6盒大礼包送礼品袋', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '鹊菓食品旗舰店', 'price': '¥\n59.90', 'location': '江苏 南京'}
{'title': '其妙麻薯干吃汤圆整箱面包早餐糯米糍驴打滚糍粑网红小吃零食\n美食', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '其妙旗舰店', 'price': '¥\n19.90', 'location': '福建 厦门'}
{'title': '脆皮烤肉五花肉 云南特产\n美食\n真空熟食香辣猪肉干非红烧肉送蘸料', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '傣小妹', 'price': '¥\n27.80', 'location': '云南 西双版纳'}
{'title': '20枚玫瑰鲜花饼云南特产玫瑰花饼胡先生正宗糕点早餐零食\n美食\n1kg', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': 'mrhu旗舰店', 'price': '¥\n39.90', 'location': '云南 昆明'}
{'title': '轩妈家蛋黄酥55g*6枚/盒手工雪媚娘麻薯糕点\n美食\n早餐网红零食小吃', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '猫诚旗舰店', 'price': '¥\n45.00', 'location': '广西 南宁'}
{'title': '切糕小吃新疆特产纯手工正宗传统散装坚果点心玛仁糖零食孕妇\n美食', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': 'yuxi钰玺', 'price': '¥\n39.90', 'location': '新疆 乌鲁木齐'}
{'title': '其妙麻薯干吃汤圆整箱面包早餐糯米糍驴打滚糍粑网红小吃零食\n美食', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '香客食品专营店', 'price': '¥\n19.80', 'location': '福建 厦门'}
{'title': '云南脆皮烤肉五花肉猪\n美食\n刘立民休闲食品熟食成人款即食小吃真空', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '小牛的烤肉', 'price': '¥\n30.00', 'location': '云南 西双版纳'}
{'title': '南萃坊流心蛋黄饼20个800克传统糕点办公室网红零食小吃\n美食\n整箱', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '南萃坊旗舰店', 'price': '¥\n32.80', 'location': '浙江 杭州'}
{'title': '梅菜扣肉饼黄山烧饼梅干菜手工薄脆饼好吃的\n美食\n网红零食小吃16个', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': 'tb361290_55', 'price': '¥\n29.80', 'location': '安徽 黄山'}
{'title': '美食\n作家王刚自贡特色冷吃牛肉 105克-205克', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': 'wg王刚1590', 'price': '¥\n49.90', 'location': '四川 自贡'}
{'title': '鲜花饼云南特产\n美食\n手工玫瑰饼五味糕点心零食1000g中秋礼盒送礼', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '花香随鲜花饼店', 'price': '¥\n34.80', 'location': '云南 昆明'}
{'title': '北方无糖零食曲阳缸炉烧饼特产正宗河北\n美食\n小吃芝麻饼传统纯手工', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '付太安', 'price': '¥\n32.50', 'location': '河北 保定'}
{'title': '新品【三只松鼠_黄金肉松饼1.25kg/整箱】早餐面包食品糕点心\n美食', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '三只松鼠旗舰店', 'price': '¥\n42.90', 'location': '安徽 芜湖'}
{'title': '爱福龙须酥正宗手工糕点小吃点心龙须糖\n美食\n好吃的怀旧零食特产', 'deal': '', 'image': '//g.alicdn.com/s.gif', 'shop': '海艳食品专营店', 'price': '¥\n29.90', 'location': '湖北 随州'}
打印后的结果为:
爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息的更多相关文章
- 3.使用Selenium模拟浏览器抓取淘宝商品美食信息
# 使用selenium+phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏览器翻页,并 ...
- Python爬虫学习==>第十二章:使用 Selenium 模拟浏览器抓取淘宝商品美食信息
学习目的: selenium目前版本已经到了3代目,你想加薪,就跟面试官扯这个,你赢了,工资就到位了,加上一个脚本的应用,结局你懂的 正式步骤 需求背景:抓取淘宝美食 Step1:流程分析 搜索关键字 ...
- 16-使用Selenium模拟浏览器抓取淘宝商品美食信息
淘宝由于含有很多请求参数和加密参数,如果直接分析ajax会非常繁琐,selenium自动化测试工具可以驱动浏览器自动完成一些操作,如模拟点击.输入.下拉等,这样我们只需要关心操作而不需要关心后台发生了 ...
- 使用Selenium模拟浏览器抓取淘宝商品美食信息
代码: import re from selenium import webdriver from selenium.webdriver.common.by import By from seleni ...
- 使用selenium模拟浏览器抓取淘宝信息
通过Selenium模拟浏览器抓取淘宝商品美食信息,并存储到MongoDB数据库中. from selenium import webdriver from selenium.common.excep ...
- Selenium模拟浏览器抓取淘宝美食信息
前言: 无意中在网上发现了静觅大神(崔老师),又无意中发现自己硬盘里有静觅大神录制的视频,于是乎看了其中一个,可以说是非常牛逼了,让我这个用urllib,requests用了那么久的小白,体会到sel ...
- Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
- 关于爬虫的日常复习(10)—— 实战:使用selenium模拟浏览器爬取淘宝美食
- Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
随机推荐
- phpMyadmin导入导出数据中出现的错误处理
1 2
- shell 一些符号的使用
给你个全的,你在Linux环境下多试下就明白了:$0 这个程式的执行名字$n 这个程式的第n个参数值,n=1..9$* 这个程式的所有参数,此选项参数可超过9个.$# 这个程式的参数个数$$ 这个程式 ...
- PHP中与类有关的几个魔术常量
与类有关的魔术常量: 以前学过的魔术常量: __FILE__ __DIR__ __LINE__ 现在: __CLASS__: 代表当前其所在的类的类名: __METHOD__:代表其当前所在的方法名:
- Mysql中关键词执行顺序
MySQL的语句执行顺序 MySQL的语句一共分为11步,最先执行的总是FROM操作,最后执行的是LIMIT操作.其中每一个操作都会产生一张虚拟的表,这个虚拟的表作为一个处理的输入,只是这些虚拟的表对 ...
- HDU2993_MAX Average Problem
题目要求你在n个数的序列中,找出一段连续的长度不小于k的连续的序列,使得这个序列的平均数最大.输出这个平均数. 典型的优先队列.首先我们需要根据输入的序列,制造一个和序列. 然后从k开始往后面走,其实 ...
- Guide: Solr performance tuning--转载
原文地址:http://h3x.no/2011/05/10/guide-solr-performance-tuning Introduction I have for the last year be ...
- hbase快速入门
hbase 是什么? Apache HBase is an open-source, distributed, versioned, non-relational database modeled a ...
- [洛谷P5137]polynomial
题目大意:求:$$\sum\limits_{i=0}^na^{n-i}b^i\pmod{p}$$$T(T\leqslant10^5)$组数据,$a,b,n,p\leqslant10^{18}$ 题解 ...
- window上安装elasticserach
提供一个百度云链接下载elasticsearch (链接:https://pan.baidu.com/s/1sk8PYjV 密码:l586) 测试达到目的:安装elasticsearch后再安装hea ...
- HiHoCoder1513:小Hi的烦恼——题解
https://hihocoder.com/problemset/problem/1513 小Hi从小的一大兴趣爱好就是学习,但是他发现尽管他认真学习,依旧有学神考的比他好. 小Hi在高中期间参加了市 ...