本想给随机加个序号，才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。作为一个小程序员，点赞的同时还在想，谁知道咋实现这种实时保存呢？有知道的给个参考文档呗。太感激了！

重点在这里

有几个种技术我现在必须用最快的时间属性并掌握！ 最急的是vue，其次是爬虫

待掌握

node+mongodb+ vue
爬虫系列
- 自带模块
- 第三方模块
Django和flask

看到一个不错的爬虫博客，简单整理下思路

python 学习思路是什么？

爬虫基本流程

发起请求
获得相应内容
解析内容
保存数据

什么是Reques，Response

应该详细了解一下HTTP请求！这几点比较重要

从输入url到得到结果的流程
HTTP请求
请求方式
URL
请求头
请求体
响应状态
响应头
响应体

能爬取什么样的数据

其实只要是网页中能看到的内容都可以爬取.简单分下类

网页文本: html文档,json/xml格式文本等
图片: 获取到的是二进制,保存为图片格式
视频: 也是二进制,

爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!

如何解析数据

直接处理
json 解析
xml解
正则. 式解析
BeautifulSoup 解析处理
PyQuery 解析
XPath 解析

如果抓取的页面数据和浏览器里看到的不一样咋办?

出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!

分析 ajax
Seleninm/webdriver (操作浏览器）动态爬虫、自动化测试工具
Splash
PyV8 , Ghost.py

强调一下核心模拟浏览器的操作行为

如何保持数据?

文本: 存文本,json,xml
关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储


print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
print('程序员类还是有原因的, 哪个行和技术更新这么快')
print('IT更新到底多快呢? 百度下: 摩尔定律!')

(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章

Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
python爬虫01在Chrome浏览器抓包
尽量不要用国产浏览器,很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...
python爬虫基础要学什么，有哪些适合新手的书籍与教程？
一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...
如何快速赚钱：Python爬虫
Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
python爬虫入门01：教你在 Chrome 浏览器轻松抓包
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是 ...

随机推荐

VI编辑器查找替换
1.Vi下进行查找 VI命令模式下:输入“/要查找的词”回车就会进入查找,你可以按“n”查找下一个,按“N”查找上一个.类似查找命令“?”与“/”的区别是“/”为向下查找,“?”为向上查找. 2.Vi ...
P1666 前缀单词
P1666 前缀单词 tire树上跑dp 首先将trie树建出来,然后对于每个节点.考虑他的子节点. 子节点的方案数都互不干扰,所以子节点与其他子节点的的方案数可以利用乘法原理算出来. 然后如果这个节 ...
2018年暑假ACM个人训练题9（动态规划）解题报告
A:m段最大字段和问题 https://www.cnblogs.com/yinbiao/p/9314528.html B:map的使用(根本就不是dp!!!) https://www.cnblogs. ...
外部的 JavaScript
<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...
Spring技术内幕阅读笔记（一）
1.BeanFactory:实现ioc容器的最基本形式.String FACTORY_BEAN_PREFIX = "&";Object getBean(String var ...
菜鸟崛起 DB Chapter 4 MySQL 5.6的数据库引擎
数据库存储引擎是数据库底层的软件组件,我们平常看不到,但是却与我们操作数据库息息相关.DBMS使用数据引擎进行创建.查询.更新和删除数据操作.不同的存储引擎提供不同的存储机制.索引技巧.锁定水平等功能 ...
TabbarController进行模块分类和管理
iOS-CYLTabBarController[好用的TabbarController] 用TabbarController进行模块分类和管理,这里推荐一个CYLTabBarController, ...
js替换字符串中的空格，换行符\r\n或\n替换成<br>
为了让回车换行符正确显示,需要将 \n 或 \r\n 替换成 <br>.同样地,将空格替换存 .这里我们通过正则表达式来替换. 一.替换所有的空格.回车换行符 //原始字符串 var s ...
awk分隔符
最近需要检测日志,shell中用到了awk,因为分割条件不止一个,并且包括了中括号.在此记录一下关于多分隔符并且包含中括号的情况 awk -F'[=,]|[][]+' '{print $6}'
#leetcode刷题之路26-删除排序数组中的重复项
给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度.不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成. 示例 1: ...

(Python爬虫01)-本想给随笔加个序号才发现这么不方便