Python爬虫--淘宝“泸州老窖”

爬虫淘宝--“泸州老窖”

爬去淘宝“泸州老窖” 相关信息：

import requests

import re

import json

import pandas as pd

## cookie

usercookie = 'miid.......'

def cookie_get(usercookie):

    """

    # 把字符串转换为字典

    :param usercookie:

    :return:

    """

    cookies = {}

    for a in usercookie.split(";"):

        name, value = a.strip().split("=", 1)

        cookies[name] = value

    return cookies

def open_url(keyword, page):

    keyload = {'q': keyword ,'s':str((page-1) * 44), 'sort':'sale-desc'}

    url = "https://s.taobao.com/search"

    cookies = cookie_get(usercookie)

    res = requests.get(url, params=keyload, cookies = cookies)

    return res

def get_page_items():

    with open("items.txt", "r", encoding="utf-8") as file1:

        g_page_config = re.search(r"g_page_config = (.*?);\n", file1.read())

        page_config_json = json.loads(g_page_config.group(1))

        page_items = page_config_json['mods']['itemlist']['data']['auctions']

        return page_items

def get_reslut(page_items, results):

    # results = []

    # page_items = get_page_items()

    for each_items in page_items:

        dict1 = dict.fromkeys(('nid', 'title', 'detail_url', 'view_price', 'view_sales', 'nick'))

        dict1['nid'] = each_items['nid']

        dict1['title'] = each_items['title']

        dict1['detail_url'] = each_items['detail_url']

        dict1['view_price'] = each_items['view_price']

        dict1['view_sales'] = each_items['view_sales']

        dict1['nick'] = each_items['nick']

        results.append(dict1)

    return results

def results_to_excel(results):

    pf = pd.DataFrame(list(results))

    order = ['nid', 'title', 'detail_url', 'view_price', 'view_sales', 'nick']

    pf = pf[order]

    file_name = pd.ExcelWriter('泸州老窖.xlsx')

    pf.fillna(' ', inplace=True) # 替换空格

    pf.to_excel(file_name, encoding='utf-8', index = False)

    file_name.save()

def main():

    keyword =  '泸州老窖' # input("请输入搜索关键词")

    length = 4 # 获取前3页商品( 44 * 3 )，每页44个商品，

    results = []

    for each in list(range(1, length)):

        res = open_url(keyword, each)

        with open("items.txt", 'w', encoding="utf-8") as file:

            file.write(res.text)

        page_items = get_page_items()

        results = get_reslut(page_items,results)

    results_to_excel(results)

if __name__ == "__main__":

    main()

Python爬虫--淘宝“泸州老窖”的更多相关文章

python爬虫-淘宝商品密码（图文教程附源码）
今天闲着没事,不想像书上介绍的那样,我相信所有的数据都是有规律可以寻找的,然后去分析了一下淘宝的商品数据的规律和加密方式,用了最简单的知识去解析了需要的数据. 这个也让我学到了,解决问题的方法不止一个 ...
python课件-淘宝-目录.txt
卷 TOSHIBA EXT 的文件夹 PATH 列表卷序列号为 AE86-8E8DF:.│ python课件-淘宝-目录.txt│ ├─01python核心编程阶段-linux基础(│ linux_h ...
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码
python3.4学习笔记(二十三) Python调用淘宝IP库获取IP归属地返回省市运营商实例代码淘宝IP地址库 http://ip.taobao.com/目前提供的服务包括:1. 根据用户提供的 ...
Python天猫淘宝评论爬虫
说明由于Github 打包的exe某些文件上传被.gitignore了,所以不提供windows二进制包 https://github.com/hunterhug/taobaocomment 一个抓 ...
python推荐淘宝物美价廉商品
完成的目标: 输入搜索的商品以及淘宝的已评价数目.店铺的商品描述(包括如实描述.服务态度.快递的5.0打分): 按要求,晒选出要求数量的结果,并按"物美价廉算法"排序后输出思 ...
python推荐淘宝物美价廉商品 2.0
改动: 新增功能 :可选择只看天猫或淘宝代码模块化封装,参数配置或输入单独在一个py文件管理,主函数功能只留出参数传入在setting配置的py文件里. main.py代码: # -*- codin ...
使用python调用淘宝的ip地址库查询接口结合zabbix判断dnspod域名解析是否正确
#encoding:utf-8 import socket import requests import json ''' 使用python结合zabbix判断dnspod域名解析是否正确服务器分国 ...
Python攻破淘宝网各类反爬手段，采集淘宝网ZDB（女用）的销量！
声明: 由于某些原因,我这里会用手机代替,其实是一样的! 环境: windows python3.6.5 模块: time selenium re 环境与模块介绍完毕后,就可以来实行我们的操作了. 第 ...
python 获取淘宝商品信息
python cookie 获取淘宝商品信息 # //get_goods_from_taobao import requests import re import xlsxwriter cok='' ...

随机推荐

.Net Core 配置系统解析
特性支持多种格式 xml json ini memory command env 支持多层嵌套 //.Net Core { "username": "Jack" ...
SpringBoot获取所有接口的路由
@Autowired WebApplicationContext applicationContext; @RequestMapping(value = "v1/getAllUrl" ...
深入浅出Mybatis系列（七）---TypeHandler简介
无论是 MyBatis 在预处理语句(PreparedStatement)中设置一个参数时,还是从结果集中取出一个值时,都会用类型处理器将获取的值以合适的方式转换成 Java 类型.Mybatis默认 ...
java基础路线与详细知识点
点击下方打开文件查看还在持续更新中.....
事务种类jdbc,Hibernate,JTA事务
JDBC事务 String URL="jdbc:sqlserver://localhost:1433;databaseName=test2"; String USER=" ...
JAVA《多线程多人上线通知案例》
package com.wangbiao.palyermanager; import com.wangbiao.player.Player; /** * TODO * * @author wangbi ...
pytorch 测试迁移学习
训练源码: 源码仓库:https://github.com/pytorch/tutorials 迁移学习测试代码:tutorials/beginner_source/transfer_learning ...
微服务架构及raft协议
微服务架构全景图服务注册和发现 Client side implement 调用需要维护所有调用服务的地址有一定的技术难度,需要rpc框架支持 Server side implement 架构简单 ...
Python - 面向对象编程 - 实战（4）
需求:士兵突进士兵许三多有一把 AK47 士兵可以开火枪能够发射子弹枪装填子弹,可以增加子弹数量需求分析很明显有两个类:士兵类,枪类 AK47 是枪名,是枪类的属性,每把枪都有子弹数,所以子 ...
Linux - last 命令（Mac 电脑）
前言为啥写这篇? 因为听 grep.sed 教程的时候有这个命令栗子加上工作中,运维给我排查问题的时候也用到了,感觉挺重要,先了解为敬! 命令作用显示用户和TTY的最后登录次数这个是在 Mac ...

Python爬虫--淘宝“泸州老窖”

爬虫淘宝--“泸州老窖”

Python爬虫--淘宝“泸州老窖”的更多相关文章

随机推荐

热门专题