python爬虫-初步认识

特此声明：

以下内容来源于博主：http://blog.csdn.net/pleasecallmewhy

http://cuiqingcai.com/

根据需要整理到自己的笔记中，用于学习。

网络爬虫（Web crawler）：也叫网络蜘蛛（Web spider）,网络爬虫的基本操作就是抓取网页。

浏览网页：在火狐浏览器中打开百度www.baidu.com ，就是将浏览器作为一个’客户端‘，

向服务器发送一次请求，把服务器的文件’抓取‘到本地，再进行解释和展现.

HTML：是一种标记语言，用标签标记内容并加以解析和区分。

浏览器功能：将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面。

URL（Uniform / Universal Resource Locator）：称为统一资源定位符（也叫网址）

URL格式：

协议
服务器（域名或IP地址），有时也包括端口号（以数字表示，可省略）
路径（即主机资源的具体地址）
查询（以？为起点）

第一部分协议和第二部分服务器用' :// '符合隔开，第二部分服务器和第三部分路径用' / '隔开

例如：http://zh.wikipedia.org:80/w/index.php

http：是协议

zh.wikipedia.org，是服务器

80，是服务器上的网络端口号

/w/index.php，是路径

爬虫最主要的处理对象就是URL

python爬虫-初步认识的更多相关文章

Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
python预课04 列表，元祖，统计值计算示例，py文件转为EXE文件，爬虫初步学习
列表,元组 #list l1 = [1, 2, 3, '高弟弟'] #定义一个列表 #增 l1.append("DSB") #最后增加"DSB"的元素 #删 l ...
Python爬虫初学（二）—— 爬百度贴吧
Python爬虫初学(二)-- 爬百度贴吧昨天初步接触了爬虫,实现了爬取网络段子并逐条阅读等功能,详见Python爬虫初学(一). 今天准备对百度贴吧下手了,嘿嘿.依然是跟着这个博客学习的,这次仿照 ...
Python爬虫笔记(一):爬虫基本入门
最近在做一个项目,这个项目需要使用网络爬虫从特定网站上爬取数据,于是乎,我打算写一个爬虫系列的文章,与大家分享如何编写一个爬虫.这是这个项目的第一篇文章,这次就简单介绍一下Python爬虫,后面根据项 ...
selenium+python爬虫环境搭建
前言: 准备使用selenium爬取网站数据,先搭建selenium+python爬虫环境搭建系统环境: 64位win10系统,同时装python2.7和python3.6两个版本,IDE为pych ...
【Python爬虫】听说你又闹书荒了？豆瓣读书9.0分书籍陪你过五一
说明五一将至,又到了学习的季节.目前流行的各大书单主打的都是豆瓣8.0评分书籍,却很少有人来聊聊这9.0评分的书籍长什么样子.刚好最近学了学python爬虫,那就拿豆瓣读书来练练手. 爬虫本来思路 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...

随机推荐

lucene中的IndexWriter.setMaxFieldLength()
lucene中的IndexWriter.setMaxFieldLength() 老版本的Lucene中,IndexWriter的maxFieldLength是指一个索引中的最大的Field个数. 这个 ...
Farm Tour(最小费用最大流模板)
Farm Tour Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 18150 Accepted: 7023 Descri ...
关于在react和node中，经常出现的const
const是定义一个常量,在ECM6当中,定义局部变量可以用let.定义全局变量用var......这是ECM6的新特性,好吧,包子在这里只是记录一下,希望大家在将来写react或者node的时候,不 ...
camke GUI工具选择 vs2017 时，如何指定工具集 v140 而不是默认的 v141？
在参数位置加入 v140 即可,不需要加 -T
setlocale同mbstowcs函数的关系（VS2008下setlocale(LC_ALL, "chs")可以执行成功，BCB使用setlocale(LC_ALL, "Chinese (Simplified)_People's Republic of China")，linux上locale别名表大概在 /usr/lib/X11/locale/locale.alias）
序中,如果要将ASCII码字符串转换为宽字符(Unicode),可以利用标准C的mbstowcs函数. 微软在MSDN中有示例,如下: 然而,这段代码在处理含有汉字的字符串时就会出现问题.比如将: w ...
Clustered and Secondary Indexes
Clustered and Secondary Indexes secondary index A type of InnoDB index that represents a subset of t ...
并发错误 java.lang.IllegalMonitorStateException: current thread not owner 分析
public class ThreadTest implements Callable<String> { public String call() throws Exception { ...
中文价格识别为数字 java代码
运行效果: public class VoicePriceRecognition { private final static String NOT_HAS_PRICE_CONTENT="n ...
Redis分布式锁的python实现
案例1: #!/usr/bin/env python # coding=utf-8 import time import redis class RedisLock(object): def __in ...
剑指offer 面试5题
面试5题: 题目:请实现一个函数,将一个字符串中的空格替换成“%20”.例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy. 方法一: # -*- co ...

python爬虫-初步认识

python爬虫-初步认识的更多相关文章

随机推荐

热门专题