网络爬虫

  • HTML超文本标记语言
  • HTTP协议
  • 简单的网络请求
  • python模块模拟浏览器发送请求
  • 爬虫小案例

爬虫简介

我们一般情况
都是通过浏览器正常访问服务端获取资源浏览器展示给用户看 爬虫
模拟浏览器发送请求 获取网页源数据 内部自动解析处理(目标数据) 存放于数据库中 好不夸张的概括一下
互联网就像是蜘蛛网,而爬虫就像是网上的蜘蛛
理论情况下只要给我们一个落脚点,我们就可以顺着互联网将互联网上面的所有的数据全部爬取下来 爬虫的价值
可以用最小的代价换取最丰厚的资源

请求方式

"""
URL:统一资源定位符(网址)
""" 1.get请求
get请求就类似于朝别人要数据
eg:浏览器地址栏输入网址回车朝该地址要数据 get请求携带数据的方式非常的具有特点,只能跟在网址的后面
url?username=jason&password=123
get请求携带的参数只能是不敏感的数据,并且get请求携带的数据大小有限制
最多好像不超过4KB左右 2.post请求
post请求就类似于你朝别人提交数据
eg:用户登录要将你的用户名和密码发送给后端去数据库校验 post请求携带数据的方式是比较隐蔽的,是放在请求体里面的
数据相对来说比较安全,并且数据量较大

HTTP协议

超文本传输协议
规定了浏览器与服务端之间数据交互的格式 1.请求数据的格式
请求首行(请求方式 协议版本(HTTP/1.1) URL)
请求头(一堆key:value键值对) 请求体(post请求携带的数据) 2.响应数据的格式
响应首行(协议版本 状态码 描述)
响应头(一堆key:value键值对) 响应体(展示给用户看的页面) 3.响应状态码
用简单的数字来描述一串中文意思
1XX:服务端已经接收到了你的数据正在处理,你可以继续提交数据
2XX:请求已经响应成功 已经返回了想要的数据(200 OK)
3XX:重定向(原本想访问A页面但是莫名的跳转到了B页面)
4XX:请求错误(404请求资源不存在,403请求不符合条件)
5XX:服务器内部错误(代码出现bug了,机房着火了,服务器断电了...500)

HTML超文本标记语言

是构造网页的骨架

HTML的注释
<!--注释--> 学习HTML的时候所见即所得 包含HTML标签代码的文件后缀名都是.html结尾
如果一个文件的后缀名是.html结尾,那么说明该文件需要用浏览器打开

前端三剑客

1.HTML
构造网页的骨架
2.CSS
给骨架添加样式
3.JS
给骨架添加动态效果

文档结构

<html>
<head></head>
<body></body>
</html>
head内填入的内容基本都不是给人看的而是给浏览器看的
body内填入的内容就是展示给用户看的内容 HTML标签分类
1.双标签
<head></head>
2.自闭和标签
<img/>

head内常用标签(了解)

title  	控制网页的标题
style 标签内部可以书写控制HTML样式的css代码
link 通过href属性可以引入外部css文件
script
1、标签内部可以直接书写js代码
2、通过src属性可以引入外部js文件
<meta name="keywords" content="meta总结,html meta,meta属性,meta跳转">
<meta name="description" content="老男孩教育Python学院">

body内常用标签

h1系列(h1~h6) 		 标题标签
p 段落标签
<s>删除</s>
<b>加粗</b>
<u>下划线</u>
<i>斜体</i>
<br> 换行
<hr> 分割线

标签分类

1.块儿级标签			h	p  br  hr
独占一行
2.行内标签 s b u i
自身文本多大就占多大

常用符号

&nbsp;  空格
<p> a &gt; b </p>
<p> a &lt; b </p>
<p> a &amp; b</p>
<p> &yen;99999999 </p>
<p> 版权&copy; </p>
<p> 商标&reg; </p>

布局标签

div
块儿级标签
span
行内标签 # div和span多用于页面的前期布局 用div先划定区域之后往区域内填充相应的内容即可

标签的嵌套

1.块儿级标签可以嵌套块儿级标签和行内标签   	div
2.行内标签只能嵌套行内标签 span
3.p标签虽然是块儿级标签但是它只能嵌套行内标签
"""
因为前段页面是需要直接展示给用户看的,所以前段页面不会轻易的报错
哪怕你写的语法不规范也会最大努力的帮你去调整
"""

常见标签

<img src="111.jpg" alt="这是个妹纸" title="这是前女友">
src既可以放本地图片地址也可以放远程图片地址
alt当图片加载不出来的时候自动的提示
title鼠标悬浮在图片上之后自动的提示 height
width
如果你只指定一个另外一个会等比例缩放
同时指定的时候可能会导致图片失真 <a href="https://www.sogo.com" target="_self">点我有你好看~</a>
<a href="https://www.sogo.com" target="_blank">点我有你好看~</a>
target参数
默认在当前页面跳转
_blank新建页面跳转

列表标签

<ul>无序列表
<li>111</li>
<li>222</li>
<li>333</li>
</ul>
# 虽然本身很丑 但是调节完样式之后会非常的好看(只要是有规则的横向或者竖向排列基本上使用的都是无序列表) <ol type="I"> # type用来控制顺序到底是按照什么来
<li>111</li>
<li>222</li>
<li>333</li>
</ol> <dl> # 标题列表
<dt>标题1</dt>
<dd>内容1</dd>
<dt>标题2</dt>
<dd>内容1</dd>
<dd>内容2</dd>
</dl>

表格标签

# 应用场景就是用来展示多个数据的
先写结构
<table>
<thead></thead>
<tbody></tbody>
</table> <table border="1"> # 如果想加一个表格先就用border
<thead>
<tr> #一个tr就表示一行
<th>ID</th> # th加粗
<th>用户名</th>
<th>年龄</th>
<th>操作</th>
</tr>
</thead>
<tbody>
<tr>
<td>1</td> # td普通文本
<td>jason</td>
<td>18</td>
<td>
<a href="">编辑</a>
<a href="">删除</a>
</td>
</tr>
</tbody>
</table>

初识html及网络爬虫概念的更多相关文章

  1. python 网络爬虫概念与HTTP(s)协议

    1. 爬虫相关概念 1.1 定义 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程 1.2 主流语言实现爬虫优劣 php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面 ...

  2. python网络爬虫之初识网络爬虫

    第一次接触到python是一个很偶然的因素,由于经常在网上看连载小说,很多小说都是上几百的连载.因此想到能不能自己做一个工具自动下载这些小说,然后copy到电脑或者手机上,这样在没有网络或者网络信号不 ...

  3. Python 网络爬虫基本概念篇

    爬虫的概念 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.这是百度百科对爬虫的定义,其实,说简单点,爬虫 ...

  4. 网络爬虫深究-初识HTTP和https常识

    网络爬虫专题--HTTP基本原理 URI和URL.URN的关系 超文本 HTTP和HTTPS URI和URL 首先,我们来了解一下URI和URL,URI,即统一资源标志符,URL,即统一资源定位符. ...

  5. 03.Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

  6. Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

  7. Python爬虫《Python网络爬虫相关基础概念》

    引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从 ...

  8. 03,Python网络爬虫第一弹《Python网络爬虫相关基础概念》

    爬虫介绍 引入 为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上. 我们都知道,当前我们所处的时代 ...

  9. 《Python网络爬虫相关基础概念》

    爬虫介绍 引入 之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...

随机推荐

  1. linux安装第三方软件 python3

    一:linux安装python3 安装第三方软件的目录 进入目录 /usr/local 下载rpm安装包 安装pyton yum安装python : yum install python3 查看pyt ...

  2. fio硬盘压力测试

    fio测试工具支持同步(pread/pwrite)和异步(libaio)FIO是测试IOPS的非常好的工具,用来对硬件进行压力测试和验证,支持13种不同的I/O引擎,包括:sync,mmap, lib ...

  3. Java多线程专题1: 并发与并行的基础概念

    合集目录 Java多线程专题1: 并发与并行的基础概念 什么是多线程并发和并行? 并发: Concurrency 特指单核可以处理多任务, 这种机制主要实现于操作系统层面, 用于充分利用单CPU的性能 ...

  4. Homework_3 (完整版)

    划水‍♂️!好耶! 果然还是逃不过作业,初三刚过就要营业 审题 爬虫+算法:划水中的员工 员工 A 此刻内心一酸,大年初一加班惨绝人寰,情不自禁打开 B 站,跟着网友一起划水看番. 但是由于技术故障原 ...

  5. ApacheCN 深度学习译文集 2020.9

    协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 不要担心自己的形象,只关心如何实现目标.--<原则>,生活原则 2.3.c 在线阅读 ApacheCN 面试求职交流群 72418 ...

  6. ApacheCN JavaScript 译文集(二) 20211123 更新

    使用 Meteor 构建单页 Web 应用 零.前言 一.制作 Meteor 应用 二.构建 HTML 模板 三.存储数据和处理集合 四.控制数据流 五.使我们的应用与路由通用 六.保持会话状态 七. ...

  7. XML 中如何输入回车换行

    XML 中如何输入回车换行? XML 特殊字符: 下面的字符在 [XML]中被定义为 空白(whitespace)字符: 空格 ( ) Tab ( ) 回车 ( ) 换行 ( ) XML 中如何输入回 ...

  8. Spring Boot一些基础配置

    1.定制banner,Spring Boot项目在启动的时候会有一个默认的启动图案: . ____ _ __ _ _ /\\ / ___'_ __ _ _(_)_ __ __ _ \ \ \ \ ( ...

  9. java_JDBC,连接数据库方式,RestSet结果集,Statement,PreparedStatement,事务,批处理,数据库连接池(c3p0和Druid)、Apache-DBUtils、

    一.JDBC的概述 1.JDBC为访问不同的数据薛是供了统一的接口,为使用者屏蔽了细节问题.2. Java程序员使用JDBC,可以连接任何提供了JDBC驱动程序的数据库系统,从而完成对数据库的各种操作 ...

  10. 简单RSA攻击方式

    RSA攻击方式总结 1.模数分解 1).解题思路 ​ a).找到RSA算法中的公钥(e,n) ​ b).通过n来找到对应的p和q,然后求得φ(n) ​ c).通过gmpy2.invert或者gmpy2 ...