python3爬取淘宝商品(失效)
最近有人反映淘宝的搜索功能要登录才能用,原先的直接爬取的方法挂了。稍微把之前的代码修改了一下,登录采用最简单的复制cookie来解决。
顺便说一下,这只是根据搜索的的索引界面获取的信息,并未深入的获取每个具体商品的信息。为了以后有拓展空间,便于爬取详细的商品信息,我顺便把详情页的URL拿下来了。
淘宝的页面其实并未做多大改变(吐槽一下:淘宝的程序员也挺懒的),之前的代码只要加上登录功能就能使用。
直接上代码:
import requests
from bs4 import BeautifulSoup
import re
from xlwt import Workbook
import xlrd
import sys R = requests.Session()
URL = "https://s.taobao.com/search?q=" """
Get_Html()函数功能:根据搜索的关键字和页数信息,获取包含数据的HTML源码
参数:
keyword:字符串,搜索的关键字
page:字符串,页数
返回值:
text:字符串,包含数据的HTML源码
"""
def Get_Html(keyword,page):
url = URL+keyword+"&ie=utf8&s="+str(page)
cookies = {}
raw_cookies = #这里copy你的cookie,我自然不可能放我的
for lies in raw_cookies.split(';'):
key,word = lies.split('=',1)
cookies[key] = word res = R.get(url,cookies = cookies)
text = res.text
return text """
Get_Data()函数功能:从包含数据的HTML源码中解析出需要的数据
参数:
text:字符串,是一些包含数据的HTML源码
返回值:
data:字符串,包含需要数据的json字符串
"""
def Get_Data( text):
reg = r',"data":{"spus":\[({.+?)\]}},"header":'
reg = re.compile(reg)
data = re.findall(reg, text)[0]
return data """
Download_Data()函数功能:将获取的数据选择一部分写入excel表格,如果想写入数据库,这部分代码需要自己写
参数:
data:包含数据的json字符串
N:写入excel表的第几行
sheet:excel表的一张表的句柄
"""
def Download_Data( data, N, sheet ):
Date = eval(data) for d in Date:
sheet.write(N,0,d['title'])
sheet.write(N,1,d['price'])
sheet.write(N,2," ".join([t['tag'] for t in d['tag_info']]))
sheet.write(N,3,d['url'][2:])
N = N + 1
return N """
主调函数,函数工作流程大致如下:
1.创建存储数据需要的sheet表格,目前只获取四个个特征:手机名、价格、特点和商品链接
2.按照关键字进行搜索,然后将获得的数据全部存入创建好的sheet中。
参数:
keyword:要搜索的关键字
"""
def main(keyword):
book = Workbook()
sheet = book.add_sheet(keyword)
sheet.write(0,0,'品牌')
sheet.write(0,1,'价格')
sheet.write(0,2,'特点')
sheet.write(0,3,'链接')
book.save('淘宝数据.xls') k = 0
N = 1
i = 0
while(True):
text = Get_Html(keyword,i*48)
try: data = Get_Data(text)
N = Download_Data(data,N,sheet)
except:
break book.save('淘宝数据.xls')
print('下载第' + str(i+1) + '页完成')
i = i + 1 print('全部数据收集完成') if __name__ == '__main__':
keyword = sys.argv[1]
main(keyword)
只要把上面的Get_HTML()函数中的 raw_cookies 修改成你的 cookie 就可以了,至于怎么获取 cookie ,Google吧!
下面是我以"华为手机"为关键字的部分搜索结果:
发现了一个17块的华为手机,复制链接一看:

果然...
上面这个页面的信息和评论信息才是更有用的数据,以后有时间再看弄不弄吧!
python3爬取淘宝商品(失效)的更多相关文章
- python3编写网络爬虫16-使用selenium 爬取淘宝商品信息
一.使用selenium 模拟浏览器操作爬取淘宝商品信息 之前我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过A ...
- Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
- 利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
- Python 爬取淘宝商品数据挖掘分析实战
Python 爬取淘宝商品数据挖掘分析实战 项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 爬取淘宝商品 ...
- <day003>登录+爬取淘宝商品信息+字典用json存储
任务1:利用cookie可以免去登录的烦恼(验证码) ''' 只需要有登录后的cookie,就可以绕过验证码 登录后的cookie可以通过Selenium用第三方(微博)进行登录,不需要进行淘宝的滑动 ...
- 爬取淘宝商品信息,放到html页面展示
爬取淘宝商品信息 import pymysql import requests import re def getHTMLText(url): kv = {'cookie':'thw=cn; hng= ...
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...
- python爬虫学习(三):使用re库爬取"淘宝商品",并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码 打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果 从url连接中可以得到搜索商品的关键字是 ...
- 使用Selenium爬取淘宝商品
import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutExceptio ...
随机推荐
- Java之——23种设计模式汇总
在软件开发的历程中,正是无数前辈们本着追求完美的架构设计和代码设计的初心.经过无数前辈们的探索和努力,逐渐形成了一系列的设计原则和设计模式. 对于Java语言来说,通常包含有6大设计原则和23种设计模 ...
- C#基础知识学习(1)方法的重写和隐藏
做了1年多了C#,发现些项目过程中很多基础东西都不是很清晰,基础不够牢固.现在开始复习基础知识并做重点记录 方法需要被重写的时候,可以在方法前加入virtual使方法变成虚方法. 这样我们可以重新写个 ...
- C语言实现双人控制的战斗小游戏
实现功能 1.双人分别控制小人移动 2.子弹碰撞 3.可改变出弹方向 4.血条实体化 前言 这个游戏是看了知乎一位非常好的老师的专栏后练手写的,(至于是哪位,知乎搜C语言小游戏最牛逼的那位) 有老师系 ...
- SQL查询结果自定义排序
一般情况之下,我们可以使用ORDER BY ...ASC或DESC来做查询排序.如: SELECT * FROM [dbo].[SalesPerformance] ORDER BY [Salesman ...
- PVE裸机虚拟化环境安装之后的一些部署记录
pve镜像使用的是proxmox-ve_6.1-1 安装之后root登录 apt update 更新源的时候会出现一些问题,是因为其中有一个企业源报错的原因 安装sudo和vim,否则不好管理非roo ...
- 3Python脚本在linux环境下头文件解释
#!/usr/bin/python到底是什么意思 有这句的,加上执行权限后,可以直接用 ./ 执行,不然会出错,因为找不到 python 解释器. #!/usr/bin/python 是告诉操作系统执 ...
- ES集群调整搜索速度
一.内存文件系统足够的缓存 Elasticsearch严重依赖于文件系统缓存,以加快搜索速度.通常,您应确保至少有一半的可用内存分配给文件系统缓存,以便Elasticsearch可以将索引的热区保留在 ...
- FIB表与RIB表的区别与联系
RIB (route information base) 和 FIB (forwarding information base),又称Ip路由表 和 CEF表,它们之间的关系可以用下面这张图片来高度概 ...
- POJ 2556 (判断线段相交 + 最短路)
题目: 传送门 题意:在一个左小角坐标为(0, 0),右上角坐标为(10, 10)的房间里,有 n 堵墙,每堵墙都有两个门.每堵墙的输入方式为 x, y1, y2, y3, y4,x 是墙的横坐标,第 ...
- Android_向用户发送短信
一段代码,用的时候copy就行 记得在manifest里声明send-sms和read-sms权限 public class SendMsgActivity extends AppCompatActi ...