python多线程爬虫：亚马逊价格

import re

import requests

import threading

import time

from time import ctime,sleep

from queue import Queue

keywords_a=[

    'ELPLP80',

    'ELPLP23',

    'ELPLP29',

    'NP14LP',

    'POA-LMP126',

    'ELPLP66',

]

keywords_b=[

    'VIP230W0.8E20.8',

    'VIP240W0.8E20.9N',

    'NP30LP',

    'LMP-C162',

    'VT70LP',

]

keywords_c= [

    'TLPLV4',

    'POA-LMP131',

    'BL-FP240A',

    'VLT-XD3200LP',

    'ET-LAD35',

    'BL-FU240A',

    '20-01032-20',

]

keywords_d =[

    'ELPLP76',

    'VLT-HC3800LP',

    'BL-FP240C',

    '5811116765-S',

    'ELPLP69',

    'BL-FP200H',

]

keywords_e = [

    '5100MP',

    'RLC-057',

    'ELPLP71',

    'ELPLP64',

    'BL-FS300B',

]

Re_rule = '<span class="a-size-base a-color-price s-price a-text-bold">(.*?)</span>'  ＃正则表达式匹配价格

headers_am = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.86 Safari/537.36'}

＃浏览器页面headers

def Scraper(kw):

    for i in kw:

        url_keyword = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords={}'.format(i)
        ＃亚马逊页面链接

        url_Epharos = 'http://www.amazon.com/s/ref=nb_sb_noss?url=srs%3D9143518011%26search-alias%3Dspecialty-aps&field-keywords={}'.format(i)

        ＃店铺链接

        response = requests.get(url_keyword,headers=headers_am)

        ＃requests.get(url,params=params) 可以提交表单用request.post(url,params=params）

        
        response_a = requests.get(url_Epharos,headers=headers_am)

        price = re.findall(Re_rule,response.text)

        price_e = re.findall(Re_rule,response_a.text)

        print('--------------------------{0}爬去完毕at{1}j结果:\n\n市场价:{2}\n\nEpharos:{3}'.format(i,time.ctime(),price[0],price_e[0]))

    time.sleep(1)

threads = []

t1 = threading.Thread(target=Scraper,args=(keywords_a,)) ＃args为元祖

threads.append(t1)

t2 = threading.Thread(target=Scraper,args=(keywords_b,))

threads.append(t2)

t3 = threading.Thread(target=Scraper,args=(keywords_c,))

threads.append(t3)

t4 = threading.Thread(target=Scraper,args=(keywords_d,))

threads.append(t4)

t5 = threading.Thread(target=Scraper,args=(keywords_e,))

threads.append(t5)

if __name__ == '__main__':

    for t in threads:

        t.setDaemon(True)  #守护线程

        t.start()

    for t in threads:

        t.join()         #等待子线程

    print ("all over %s" %ctime())

python多线程爬虫：亚马逊价格的更多相关文章

爬虫亚马逊Bestselling类别产品数据TOP100
1 # -*- coding: utf-8 -*- 2 # @Time : 2020/9/11 16:23 3 # @Author : Chunfang 4 # @Email : 3470959534 ...
python 脚本开发实战-当当亚马逊图书采集器转淘宝数据包
开发环境python2.7.9 os:win-xp exe打包工具pyinstaller 界面tkinter ============================================= ...
基于Java实现简单亚马逊爬虫
前言:最近博主买了台Kindle,感觉亚马逊上的图书资源质量挺好,还时不时地会有价格低但质量高的书出售,但限于亚马逊并没有很好的优惠提醒功能,自己天天盯着又很累.于是,我自己写了一个基于Java的亚马 ...
个性化对待亚马逊不同站点使用 Python 进行线程编程
# -*- coding: UTF-8 -*- import threading import time exitFlag = 0 class myThread (threading.Thread): ...
使用pushplus+python实现亚马逊到货消息推送微信
xbox series和ps5发售以来,国内黄牛价格一直居高不下.虽然海外amazon上ps5补货很少而且基本撑不过一分钟,但是xbox series系列明显要好抢很多. 日亚.德亚的xbox ser ...
亚马逊商品页面的简单爬取 --Pyhon网络爬虫与信息获取
1.亚马逊商品页面链接地址(本次要爬取的页面url) https://www.amazon.cn/dp/B07BSLQ65P/ 2.代码部分 import requestsurl = "ht ...
如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据
什么是代理?什么情况下会用到代理IP? 代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真 ...
python requests库网页爬取小实例：亚马逊商品页面的爬取
由于直接通过requests.get()方法去爬取网页,它的头部信息的user-agent显示的是python-requests/2.21.0,所以亚马逊网站可能会拒绝访问.所以我们要更改访问的头部信 ...
JAVA爬取亚马逊的商品信息
在程序里面输入你想爬取的商品名字,就可以返回这件商品在亚马逊搜索中都所有相关商品的信息,包括名字和价格. 解决了在爬取亚马逊时候,亚马逊可以识别出你的爬虫,并返回503,造成只能爬取几个页面的问题. ...

随机推荐

openstack如何设置cpu和内存的超配比例
默认OpenStack的CPU超配比例是1:16,内存超配比例是1:1.5.下面配置的就是这个比例,你可以自己算一下,cat /proc/cpuinfo里面的逻辑核数,再x16就是你能够分配给虚拟机的 ...
http://blog.csdn.net/pet8766/article/details/8186955
http://blog.csdn.net/pet8766/article/details/8186955
LINUX 和WINDOWS下的自动登录小脚本
每天上班第一件事,就是连接公司LAB里面的机器,但首先要过一个防火墙,每次输用户名密码是很累人的事, 以下是两个脚本,可以放在启动项中,开机便自动登录 WINDOWS: @echo off ipcon ...
倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-可以用软件自带NC工具驱动但是程序无法让电机转动怎么办
新建一个项目,当扫描的时候务必勾选YES,使用网上最新的XML文件如果不使用,则有些设备可能被扫描出来是无效的(图标不正常) 如果完全删除XML描述文件,可能也能扫描出来,而且可以用Twin ...
lodash escapeRegExp 转义正则特殊字符
_.escapeRegExp([string='']) 转义RegExp 中特殊的字符 "^", "$", "\", ".&quo ...
嵌入式实时操作系统Nucleus PLUS综述
近些年来,随着嵌入式系统飞速的发展.嵌入式实时操作系统广泛地应用在制造工业.过程控制.通讯.仪器仪表.汽车.船舶.航空航天.军事.装备.消费类产品等方面. Nucleus PLUS 是为实时嵌入式应 ...
JS 自动计算HTML的font-size
Rem尺寸解决方案,需要配合一些js动态设置<html>标签的font-size 和 viewport来配合 <script> (function(doc, win) { va ...
chrome 非安全模式解决开发跨域问题
这个参数可以降低chrome浏览器的安全性,禁用同源策略,利于开发人员本地调试. ps:如果是mac用户(记得 Command + Q 关闭chrome): open -a Google\ Chro ...
VS2017调试MVC程序，中文输入法下浏览器闪退，程序调试终止
工具->选项-> 项目和解决方案->Web项目->浏览器窗口关闭时停止调试器(s) 复选√ 去掉即可,
Angularjs学习笔记10_directive3
1. restrict M 使用模板 A 属性扩展 2. template,templateUrl,$templateCache 模板缓存 //注射器加载完所有模块时,此方法执行一 ...

python多线程爬虫：亚马逊价格

python多线程爬虫：亚马逊价格的更多相关文章

随机推荐

热门专题