本想给随机加个序号，才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。作为一个小程序员，点赞的同时还在想，谁知道咋实现这种实时保存呢？有知道的给个参考文档呗。太感激了！

重点在这里

有几个种技术我现在必须用最快的时间属性并掌握！ 最急的是vue，其次是爬虫

待掌握

node+mongodb+ vue
爬虫系列
- 自带模块
- 第三方模块
Django和flask

看到一个不错的爬虫博客，简单整理下思路

python 学习思路是什么？

爬虫基本流程

发起请求
获得相应内容
解析内容
保存数据

什么是Reques，Response

应该详细了解一下HTTP请求！这几点比较重要

从输入url到得到结果的流程
HTTP请求
请求方式
URL
请求头
请求体
响应状态
响应头
响应体

能爬取什么样的数据

其实只要是网页中能看到的内容都可以爬取.简单分下类

网页文本: html文档,json/xml格式文本等
图片: 获取到的是二进制,保存为图片格式
视频: 也是二进制,

爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!

如何解析数据

直接处理
json 解析
xml解
正则. 式解析
BeautifulSoup 解析处理
PyQuery 解析
XPath 解析

如果抓取的页面数据和浏览器里看到的不一样咋办?

出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!

分析 ajax
Seleninm/webdriver (操作浏览器）动态爬虫、自动化测试工具
Splash
PyV8 , Ghost.py

强调一下核心模拟浏览器的操作行为

如何保持数据?

文本: 存文本,json,xml
关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储


print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
print('程序员类还是有原因的, 哪个行和技术更新这么快')
print('IT更新到底多快呢? 百度下: 摩尔定律!')

(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章

Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
Python爬虫01——第一个小爬虫
Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
python爬虫01在Chrome浏览器抓包
尽量不要用国产浏览器,很多是有后门的 chrome是首选百度按下F12 element标签下对应的HTML代码点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...
python爬虫基础要学什么，有哪些适合新手的书籍与教程？
一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...
如何快速赚钱：Python爬虫
Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
python爬虫入门01：教你在 Chrome 浏览器轻松抓包
通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是 ...

随机推荐

servlet 与 tomcat版本不匹配的问题
严重: Failed to process JAR found at URL [/StudentLeave] for ServletContainerInitializers for context ...
c# 常见验证邮箱、电话号码、日期等格式
#region 验证邮箱验证邮箱 /**//// <summary> /// 验证邮箱 /// </summary> /// <param name="sour ...
Python—面向对象02
1.抽象类与归一化接口,即提供给使用者来调用自己功能的方式.方法.入口为什么要使用接口? 接口提取了一类共同的函数,可以把接口看做一个函数的集合然后让子类去实现接口中的函数这么做的意义在于 ...
推荐几款基于vue的使用插件
1.muse-ui ★6042 - 三端样式一致的响应式 UI 库 2.vuetify ★11169 - 为移动而生的Vue JS 2组件框架 3.Vux ★12969- 基于Vue和WeUI的组件库 ...
SpringBoot非官方教程 | 第十一篇：springboot集成swagger2，构建优雅的Restful API
转载请标明出处: 原文首发于:https://www.fangzhipeng.com/springboot/2017/07/11/springboot-swagger2/ 本文出自方志朋的博客 swa ...
linux ccenteros 部署 redis
step one : yum install redis -- 安装redis数据库 step two:安装完成之后开启redis 服务 service redis start syste ...
xcode运行时候 You don’t have permission.
xcode 不能运行,提示没有权限是因为使用第三方框架有plist文件存在
[JSOI2008]最大数（线段树基础）
题目描述现在请求你维护一个数列,要求提供以下两种操作: 1. 查询操作. 语法:Q L 功能:查询当前数列中末尾L个数中的最大的数,并输出这个数的值. 限制: L 不超过当前数列的长度.(L > ...
leetcode笔记（八）263. Ugly Number
题目描述 Write a program to check whether a given number is an ugly number. Ugly numbers are positive nu ...
Intellij IDEA切换maven
问题描述: IDEA自带Maven,但不想用,想用自己安装的. 解决方案: File->Settings(快捷键:Ctrl+Alt+S) 这里分为了两个,竟然还有默认配置一说,上面的只是修改了当 ...

(Python爬虫01)-本想给随笔加个序号才发现这么不方便