Python爬取亚马逊商品页面

仍然利用Requests库来实现

1 import requests

2 r=requests.get('https://www.amazon.cn/gp/product/B01M8L5Z3Y')

3 r.status_code

4 r.encoding=r.apparent_encoding

5 r.text

发现结果有错误

'<!--\n        To discuss automated access to Amazon data please contact api-services-support@amazon.com.\n        For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com.cn/index.html/ref=rm_5_sv, or our Product Advertising API at https://associates.amazon.cn/gp/advertising/api/detail/main.html/ref=rm_5_ac for advertising use cases.\n-->\n<html>\n   <head>\n      <meta http-equiv="Content-Type" content="text/html;charset=utf-8">\n      <title>亚马逊</title>\n   <body style="text-align:center;">\n      <br>\n      <div style="width:600px;margin:0 auto;text-align:left;">\n         <h2>意外错误</h2>\n      </div>\n      <br>\n      <div style="width:500px;margin:0 auto;text-align:left;"><font color="red">抱歉，由于程序执行时，遇到意外错误，您刚刚操作没有执行成功，请稍后重试。或将此错误报告给我们的客服中心：<a href="mailto:service_bj@cs.amazon.cn">service_bj@cs.amazon.cn</a></font><br><br>推荐您<a href="javascript:history.back(1)">返回上一页</a>，确认您的操作无误后，再继续其他操作。<br>您可以通过亚马逊<a href="https://www.amazon.cn/help/ref=cs_503_link/" target="_blank" rel="noopener noreferrer">帮助中心</a>，获得更多的帮助。<br></div>\n   </body>\n</html>'

于是我们查看head

 r.request.headers

 得到{'User-Agent': 'python-requests/2.26.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': '*/*', 'Connection': 'keep-alive'}

发现

'User-Agent': 'python-requests/2.26.0'
被检测为机器人故无法进行网页爬取所以我们对其进行更改

url='https://www.amazon.cn/gp/product/B01M8L5Z3Y'

try:

    kv={'user-agent':'Mozilla/5.0'}

    r=requests.get(url,headers=kv)

    r.raise_for_status()

    r.encoding=r.apparent_encoding

    print(r.text[1000:2000])

except:

    print('爬取失败')

-----------------------------------------------------------------

发现百度关键词搜索接口：

https://www.baidu.com/s?wd= #观察可得

import requests

kv={'wd':'python'}

try:

    r=requests.get('https://www.baidu.com/',params=kv)

    r.raise_for_status()

    print(r.request.url)

    print(len(r.text))

except:

    print('爬取失败')

Python爬取亚马逊商品页面的更多相关文章

亚马逊商品页面的简单爬取 --Pyhon网络爬虫与信息获取
1.亚马逊商品页面链接地址(本次要爬取的页面url) https://www.amazon.cn/dp/B07BSLQ65P/ 2.代码部分 import requestsurl = "ht ...
python requests库网页爬取小实例：亚马逊商品页面的爬取
由于直接通过requests.get()方法去爬取网页,它的头部信息的user-agent显示的是python-requests/2.21.0,所以亚马逊网站可能会拒绝访问.所以我们要更改访问的头部信 ...
JAVA爬取亚马逊的商品信息
在程序里面输入你想爬取的商品名字,就可以返回这件商品在亚马逊搜索中都所有相关商品的信息,包括名字和价格. 解决了在爬取亚马逊时候,亚马逊可以识别出你的爬虫,并返回503,造成只能爬取几个页面的问题. ...
用scrapy爬取亚马逊网站项目
这次爬取亚马逊网站,用到了scrapy,代理池,和中间件: spiders里面: # -*- coding: utf-8 -*- import scrapy from scrapy.http.requ ...
如何使用代理IP进行数据抓取，PHP爬虫抓取亚马逊商品数据
什么是代理?什么情况下会用到代理IP? 代理服务器(Proxy Server),其功能就是代用户去取得网络信息,然后返回给用户.形象的说:它是网络信息的中转站.通过代理IP访问目标站,可以隐藏用户的真 ...
Python爬取网址中多个页面的信息
通过上一篇博客了解到爬取数据的操作,但对于存在多个页面的网址来说,使用上一篇博客中的代码爬取下来的资料并不完整.接下来就是讲解该如何爬取之后的页面信息. 一.审查元素鼠标移至页码处右键,选择检查元素 ...
毕设一:python 爬取苏宁的商品评论
毕设需要大量的商品评论,网上找的数据比较旧了,自己动手代理池用的proxypool,github:https://github.com/jhao104/proxy_pool ua:fake_user ...
最新亚马逊 Coupons 功能设置教程完整攻略！
最新亚马逊 Coupons 功能设置教程完整攻略! http://m.cifnews.com/app/postsinfo/18479 亚马逊总是有新的创意,新的功能.最近讨论很火的,就是这个 Coup ...
亚马逊副总裁谈Marketplace平台的个性化服务
说到个性化,亚马逊无疑是挖掘与利用数据为消费者打造个性化网购体验的先驱之一.而现在,几乎所有的公司和网站都在利用更加个性化的推荐算法为用户提供更好的购物和浏览体验. 亚马逊近年来尤其重视将其个性化特性 ...
亚马逊与Twitter携手电子商务
亚马逊(Amazon)与Twitter开展了合作,允许用户以Twitter消息的形式将喜欢的商品发送到购物篮中.这些高科技企业正在想办法把社交媒体和电子商务融为一体. 这一功能旨在将Twitter转变 ...

随机推荐

shell端口监听异常邮箱告警
业务场景:应用发布监听服务是否正常启动,因为服务器资源不够上不了prometheus.grafana,所以写的shell脚本监听.此脚本适用于初创公司及小微企业使用. 准备工作除了shell脚本这里 ...
[WPF]使用Fody提高效率
下载安装及使用代码实例 public class Person:INotifyPropertyChanged { public event PropertyChangedEventHandler P ...
解析url地址hashhref
今日实际操作----Dart Mac开发与运行环境配置配置.bash_profile
Mac 打开.编辑 .bash_profile 文件一般在Mac上配置环境变量时经常要创建.编辑 .bash_profile文件.创建该文件时一般都会选择在当前用户目录下,即Mac下的.bash_p ...
djiango框架推导过程，jinja2模板语法，jiango简介，基本操作命令
djiango框架推导过程,jinja2模板语法,jiango简介,基本操作命令一.web框架前戏 web 框架可以理解为是基于会联网的web服务端>>>socket服务端 1.w ...
【学习笔记】C++ 常量折叠原理和验证
以下的代码很有意思,在相同时刻,相同的内存地址,数据居然会不一样. #include <iostream> int main(void) { const int const_val = 3 ...
Casbin: 连续3年参加Google Summer of Code的开源授权技术领导者
Casbin是一个开源的授权解决方案,很自豪的宣布它已经连续三年参加Google Summer of Code(GSoC)项目.Casbin是实现访问控制和授权管理的最受欢迎的开源项目之一.该项目广泛 ...
Linux 安装 CentOS7
1.linux 下载 http://mirrors.aliyun.com/centos/7/isos/x86_64/ centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliy ...
day08-SpringMVC底层机制简单实现-04
SpringMVC底层机制简单实现-04 https://github.com/liyuelian/springmvc-demo.git 8.任务7-完成简单视图解析功能说明:通过目标方法返回的 S ...
2.1.新建项目及项目目录和预览uni项目
目录结构一个uni-app工程,默认包含如下目录及文件 static目录使用注意编译到任意平台时,static 目录下除不满足条件编译的文件,会直接复制到最终的打包目录,不会打包编译.非 sta ...

Python爬取亚马逊商品页面

Python爬取亚马逊商品页面的更多相关文章

随机推荐

热门专题