Flipcart 爬取流程

第一步:爬取分类url

from requests_html import  HTMLSession

session =HTMLSession()

#https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0

#还有个t参数,目前可以不加

res =session.get('https://www.flipkart.com/lc/getData?dataSourceId=websiteNavigationMenuDS_1.0', verify=False)

appliances_columns_list=res.json().get('navData').get('appliances').get('tabs')[0].get('columns')

men_columns_list=res.json().get('navData').get('men').get('tabs')[0].get('columns')

women_columns_list=res.json().get('navData').get('women').get('tabs')[0].get('columns')

baby_kids_columns_list=res.json().get('navData').get('baby-kids').get('tabs')[0].get('columns')

home_kitchen_columns_list=res.json().get('navData').get('home-kitchen').get('tabs')[0].get('columns')

nav_columns_lists =appliances_columns_list+men_columns_list+women_columns_list+baby_kids_columns_list+home_kitchen_columns_list

for nav_columns_list in nav_columns_lists:

    for title_url_type_dict in nav_columns_list:

        print(title_url_type_dict.get('url'))

第二步:获取翻页

#page参数控制

如:https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3

第三步:获取详情页url

from requests_html import  HTMLSession

session =HTMLSession()

res =session.get('https://www.flipkart.com/womens-footwear/pr?sid=osp,iko&page=3', verify=False)

print(res.html.xpath('//*[@id="container"]/div/div[3]/div[2]/div[1]/div[2]/div/div/div/div/div/a[1]/@href')[4:])

第四步:详情页访问

Flipcart 爬取流程的更多相关文章

国外电商网站snapdeal爬取流程
首页爬取 1.首页获取各个目录的url 如所有优惠all_offers的其中urlhttps://www.snapdeal.com/products/men-apparel-shirts?sort=p ...
amazon爬取流程与思路
第一步:访问分类页面 https://www.amazon.in//gp/site-directory?ref=nav_em_ajax_fail #抓包获得第二步:获取分类页面下各个分类的url 如 ...
利用Scrapy爬取所有知乎用户详细信息并存至MongoDB
欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标本节要实现的内容有 ...
全栈爬取-Scrapy框架(CrawlSpider)
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
MATLAB爬虫爬取股票数据
近年来,大数据盛行,有关爬虫的教程层次不穷.那么,爬虫到底是什么呢? 什么是爬虫? 百度百科是这样定义的: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
使用selenium再次爬取疫情数据(链接数据库)
爬取网页地址: 丁香医生数据库连接代码: def db_connect(): try: db=pymysql.connect('localhost','root','zzm666','payiqin ...

随机推荐

mysql 忘记登录密码（修改root密码）
1.以管理员身份打开cmd,键入net stop mysql,停止mysql 2.切换到mysql的安装目录下(例:S:\mysql\mysql-8.0.18-winx64\mysql-8.0.18- ...
pycharm中启动Django方法
1.找到Edit Configurations 2.Parameters处添加 runserver 0.0.0.0:8080 3.运行成功
NumPy 学习第三篇：矢量化和广播
矢量化矢量化是指用数组表达式替换显式的for循环.在Python中循环数组或其他跟数组类似的数据结构时,使用循环会涉及很多开销.NumPy中的矢量化操作把内部循环委托给高度优化的C和Fortran函 ...
洛谷题解 P3161 【[CQOI2012]模拟工厂】
本蒟蒻又双叒叕被爆踩辣! 题目链接 Solution: 这题又是一道贪心.. 数据范围: n<=15 ti<=100,000 gi<=10^9 mi<=10^9 这里就可以看到 ...
批量修改bilibili客户端下载视频文件名
代码已上传:Github 起因昨天晚上从B站电脑客户端下了一个分集视频但是下载后的视频是这样的: 视频名是这样的: 这样既不直观又不美观,就算把视频文件放到一个文件夹内,连续看视频时也不容易记住看 ...
Nginx目录结构与配置文件详解
Nginx安装具体安装nginx请移步:[nginx部署] 安装依赖安装pcre依赖软件 [root@ubuntu ~]# yum install -y pcre pcre-devel //外网情 ...
java中List、Map、Set、Stack、Queue、Collections等的使用
java中List.Map.Set.Stack.Queue.Collections等的使用 List 创建方法: List<String> list=new ArrayList<&g ...
常见的RuntimeException报错原因
对于RuntimeException 做java开发的朋友想必不会陌生,可以用于事物的回滚操作.异常类型也有很多种,写这篇文章主要是为了总结自己开发中遇到的一些异常类型以便帮助大家遇到相应的报错找不 ...
每周一练之数据结构与算法（LinkedList）
这是第三周的练习题,原本应该先发第二周的,因为周末的时候,我的母亲大人来看望她的宝贝儿子,哈哈,我得带她看看厦门这座美丽的城市呀. 这两天我抓紧整理下第二周的题目和答案,下面我把之前的也列出来: 1. ...
【HTTP】HTTP 的15个常见知识点复习
前言自从入职新公司到现在,我们前端团队内部一直在做 ?每周一练的知识复习计划,我之前整理了一个每周一练之数据结构与算法学习内容,大家也快去看看~~ 最近三周,主要复习网络基础相关的知识 ...

Flipcart 爬取流程

第一步:爬取分类url

第二步:获取翻页

第三步:获取详情页url

第四步:详情页访问

Flipcart 爬取流程的更多相关文章

随机推荐

热门专题