The website is API（1）

Requests 自动爬取HTML页面自动网路请求提交

robots 网络爬虫排除标准

Beautiful Soup 解析HTML页面

实战

Re 正则表达式详解提取页面关键信息

Scrapy*框架

第一周：规则

第一单元：Requests库入门

1.安装

以管理员身份运行命令提示符

输入 pip install request

验证：

>>> import requests

>>> r = requests.get("http://www.baidu.com")

>>> r.status_code

200

requests.request()：构造一个请求，支撑以各个方法的基础方法

requests.get()：获取HTML网页的主要方法，对应于HTTP的GET

requests.get(url,params=None,**kwargs)

url:拟获取页面的url链接

params:url中的额外参数，字典或字节流格式，可选

**kwargs:12个控制访问的参数

Response对象的属性

r.status_code：HTTP请求的返回状态，200表示连接成功，404表示失败

r.text：HTTP响应内容的字符串形式，即，url对应的页面内容

r.encoding：从HTTP header中猜测的响应内容编码方式

r.apparent_encoding：从内容中分析出响应内容编码方式

r.content：HTTP响应内容的二进制形式

通用代码框架：

>>> import requests

>>> def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)

        r.raise_for_status()#如果状态不是200，引发HTTPEorror异常

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return "产生异常"

>>> if __name__ == "__main__":
url="www.baidu.com"
print(getHTMLText(url))

产生异常

requests.head()：网页头，HEAD

requests.post()：向HTML网页提交POST请求的方法，POST

requests.put()：PUT

requests.patch()：局部修改请求，PATCH

requests.delete()：删除请求，DELETE

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等七种

r = requests.request('GET',url,**kwargs)

r = requests.request('HEAD',url,**kwargs)

r = requests.request('POST',url,**kwargs)

r = requests.request('PUT',url,**kwargs)

r = requests.request('PATCH',url,**kwargs)

r = requests.request('delete',url,**kwargs)

r = requests.request('OPTIONS',url,**kwargs)

**kwargs:控制访问的参数，可选

params:字典或字节序列，作为参数增加到url中

data：字典、字节序列或文件对象，作为Request的内容

json：JSON格式的数据

headers：

https://www.baidu.com/robots.txt

Requests库爬取实例

>>> import requests

>>> url = "https://item.jd.com/2967929.html"

>>> try:

    r = requests.get(url)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    print(r.text[:1000])

except:

    print("爬取失败")

<!DOCTYPE HTML>

<html lang="zh-CN">

<head>

    <!-- shouji -->

    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />

    <title>【华为荣耀8】荣耀8 4GB+64GB 全网通4G手机 魅海蓝【行情 报价 价格 评测】-京东</title>

    <meta name="keywords" content="HUAWEI荣耀8,华为荣耀8,华为荣耀8报价,HUAWEI荣耀8报价"/>

    <meta name="description" content="【华为荣耀8】京东JD.COM提供华为荣耀8正品行货，并包括HUAWEI荣耀8网购指南，以及华为荣耀8图片、荣耀8参数、荣耀8评论、荣耀8心得、荣耀8技巧等信息，网购华为荣耀8上京东,放心又轻松" />

    <meta name="format-detection" content="telephone=no">

    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/2967929.html">

    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/2967929.html">

    <meta http-equiv="X-UA-Compatible" content="IE=Edge">

    <link rel="canonical" href="//item.jd.com/2967929.html"/>

        <link rel="dns-prefetch" href="//misc.360buyimg.com"/>

    <link rel="dns-prefetch" href="//static.360buyimg.com"/>

    <link rel="dns-prefetch" href="//img10.360buyimg.com"/>

    <link rel="dns

>>> import requests

>>> url = "https://www.amazon.cn/gp/product/B01MBL5Z3Y"

>>> try:

    kv = {'user-agent':'Mozilla/5.0'}

    r = requests.get(url,headers = kv)

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    print(r.text[1000:2000])

except:

    print("Fail")

       ue_sid = (document.cookie.match(/session-id=([0-9-]+)/) || [])[1],

        ue_sn = "opfcaptcha.amazon.cn",

        ue_id = 'HB12BAYVB85FMA4VRS38';

}

</script>

</head>

<body>

<!--

        To discuss automated access to Amazon data please contact api-services-support@amazon.com.

        For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com.cn/index.html/ref=rm_c_sv, or our Product Advertising API at https://associates.amazon.cn/gp/advertising/api/detail/main.html/ref=rm_c_ac for advertising use cases.

-->

<!--

Correios.DoNotSend

-->

<div class="a-container a-padding-double-large" style="min-width:350px;padding:44px 0 !important">

    <div class="a-row a-spacing-double-large" style="width: 350px; margin: 0 auto">

        <div class="a-row a-spacing-medium a-text-center"><i class="a-icon a-logo"></i></div>

        <div class="a-box a-alert a-alert-info a-spacing-base">

            <div class="a-box-inner">

百度360搜索关键词提交

import requests

keyword = 'Python'

try:

    kv = {'q':keyword}

    r = requests.get("http://www.so.com/s",params = kv)

    print(r.request.url)

    r.raise_for_status()

    print(len(r.text))

except:

    print("爬取失败")

图片下载

import requests

import os

url = "http://wx1.sinaimg.cn/mw600/0076BSS5ly1g6hmmj82tpj30u018wdos.jpg"

root = "E://pics//"

path = root + url.split('/')[-1]

try:

    if not os.path.exists(root):

        os.mkdir(root)

    if not os.path.exists(path):

        r = requests.get(url)

        with open(path,'wb') as f:

            f.write(r.content)

            f.close()

            print("文件保存成功")

    else:

        print("文件已存在")

except:

    print("爬取失败")

IP地址查询

import requests

url = "http://m.ip138.com/ip.asp?ip="

try:

    r = requests.get(url+'202.204.80.112')

    r.raise_for_status()

    r.encoding = r.apparent_encoding

    print(r.text[-300:])

except:

    print("爬取失败")

The website is API（1）的更多相关文章

The website is API（2）
一.Beautifu Soup库 from bs4 import BeautifulSoup soup = BeautifulSoup(demo,"html.parser") Ta ...
The website is API（3）
网络爬虫实战知识准备: Requests库.robots(网络爬虫排除标准).BeautifulSoup库一.Re正则表达式 1. 简洁地表达一组字符串通用的字符串表达框架字符串匹配编译: 2 ...
The website is API（4）
1.淘宝商品信息定向爬虫目标:获取淘宝搜索页面信息,提取其中的商品名称和价格理解:淘宝的搜索接口翻页的处理技术路线:requests+re https://s.taobao.com/searc ...
我这么玩Web Api（二）：数据验证，全局数据验证与单元测试
目录一.模型状态 - ModelState 二.数据注解 - Data Annotations 三.自定义数据注解四.全局数据验证五.单元测试一.模型状态 - ModelState 我理解 ...
[Android]使用Dagger 2依赖注入 - API（翻译）
以下内容为原创,欢迎转载,转载请注明来自天天博客:http://www.cnblogs.com/tiantianbyconan/p/5092525.html 使用Dagger 2依赖注入 - API ...
[转]ASP.NET Web API（三）：安全验证之使用摘要认证(digest authentication)
本文转自:http://www.cnblogs.com/parry/p/ASPNET_MVC_Web_API_digest_authentication.html 在前一篇文章中,主要讨论了使用HTT ...
ASP.NET Web API（三）：安全验证之使用摘要认证(digest authentication)
在前一篇文章中,主要讨论了使用HTTP基本认证的方法,因为HTTP基本认证的方式决定了它在安全性方面存在很大的问题,所以接下来看看另一种验证的方式:digest authentication,即摘要认 ...
ASP.NET Web API（二）：安全验证之使用HTTP基本认证
在前一篇文章ASP.NET Web API(一):使用初探,GET和POST数据中,我们初步接触了微软的REST API: Web API. 我们在接触了Web API的后就立马发现了有安全验证的需求 ...
微信公众平台Js API（WeixinApi）
微信公众平台Js API(WeixinApi): https://github.com/zxlie/WeixinApi#user-content-3%E9%9A%90%E8%97%8F%E5%BA%9 ...

随机推荐

MVC通用仓储类
原文链接:http://www.codeproject.com/Articles/1095323/Generic-Repository-Pattern-MVC 良好的架构师任何项目的核心,开发人员一直 ...
PAT A1018
A 1018 Public Bike Management 这个题目算是比较典型的一个.我分别用dfs,及dijkstra+dfs实现了一下. dfs实现代码: #include <cstdio ...
.NET 软件下面win10自动启动配置
1.设置所有用户登录都能启动,打开文件夹 C:\ProgramData\Microsoft\Windows\Start Menu\Programs\StartUp 2.给要启动的应用程序创建快捷方式, ...
ArrayList扩容原理分析
1:代码解读和分析 1.1:构造方法分析 1: public ArrayList(int initialCapacity) { ) { this.elementData = new Object[in ...
吴裕雄--天生自然MySQL学习笔记：MySQL 及 SQL 注入
如果通过网页获取用户输入的数据并将其插入一个MySQL数据库,那么就有可能发生SQL注入安全的问题. 本章节将为大家介绍如何防止SQL注入,并通过脚本来过滤SQL中注入的字符. 所谓SQL注入,就是通 ...
C++ spdlog日志管理
[1]spdlog简介 spdlog是一个开源的.快速的.仅有头文件的基于C++11实现的一款C++专用日志管理库. [2]源码下载下载地址:https://github.com/gabime/sp ...
YouTube推出慈善组合工具，能引国内视频网站跟风吗？
互联网的出现不仅仅让大众的工作和生活更便利,更深度改变着传统事物的形态,让其被更多人广泛地认知并接触到.如,原本在线下通过彩页.手册.横幅等进行宣传.募捐的慈善,就通过互联网展现出更为强大的影响力.而 ...
03 Mybatis：05.使用Mybatis完成CRUD
mybatis框架:共四天明确:我们在实际开发中,都是越简便越好,所以都是采用不写dao实现类的方式.不管使用XML还是注解配置. 第二天:mybatis基本使用 mybatis的单表crud操作 ...
用c语言实现的几个小项目
1.参考:Linux系统编程 2.参考:制作简单计算器 3.参考:制作2048小游戏 4.参考:五子棋实现
java使用HSSFWorkbook下载Excel表格
@RequestMapping(value = "/exportVectorExcelN", method = RequestMethod.GET) @ResponseBody @ ...

The website is API（1）

The website is API（1）的更多相关文章

随机推荐

热门专题