(Python爬虫01)-本想给随笔加个序号才发现这么不方便
本想给随机加个序号,才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗。太感激了!

重点在这里
有几个种技术我现在必须用最快的时间属性并掌握! 最急的是vue,其次是爬虫
待掌握
- node+mongodb+ vue 
- 爬虫系列 
 - 自带模块
 - 第三方模块
- Django和flask 
看到一个不错的爬虫博客,简单整理下思路
python 学习思路是什么?
爬虫基本流程
- 发起请求
- 获得相应内容
- 解析内容
- 保存数据
什么是Reques,Response
应该详细了解一下HTTP请求!这几点比较重要
- 从输入url到得到结果的流程
- HTTP请求
- 请求方式
- URL
- 请求头
- 请求体
- 响应状态
- 响应头
- 响应体
能爬取什么样的数据
其实只要是网页中能看到的内容都可以爬取.简单分下类
- 网页文本: html文档,json/xml格式文本等
- 图片: 获取到的是二进制,保存为图片格式
- 视频: 也是二进制,
爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!
如何解析数据
- 直接处理
- json 解析
- xml解
- 正则. 式解析
- BeautifulSoup 解析处理
- PyQuery 解析
- XPath 解析
如果抓取的页面数据和浏览器里看到的不一样咋办?
出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!
- 分析 ajax
- Seleninm/webdriver (操作浏览器)动态爬虫、自动化测试工具
- Splash
- PyV8 , Ghost.py
强调一下核心模拟浏览器的操作行为
如何保持数据?
- 文本: 存文本,json,xml
- 关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
- 非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储
print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
print('程序员类还是有原因的, 哪个行和技术更新这么快')
print('IT更新到底多快呢? 百度下: 摩尔定律!')
(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章
- Python爬虫-01:爬虫的概念及分类
		目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ... 
- Python爬虫01——第一个小爬虫
		Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ... 
- python爬虫01在Chrome浏览器抓包
		尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ... 
- python爬虫之requests库
		在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ... 
- python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)
		相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ... 
- python爬虫基础要学什么,有哪些适合新手的书籍与教程?
		一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ... 
- 如何快速赚钱:Python爬虫
		Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ... 
- Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取
		很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ... 
- python爬虫入门01:教你在 Chrome 浏览器轻松抓包
		通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ... 
随机推荐
- 使用vue搭建项目(创建手脚架)
			第一步:切换到创建的目录 创建项目 vue cerate [model] 第二步:切换到创建好的项目,然后创建element vue add element 第三步:创建router vue add ... 
- 【luoguP1086】【2004NOIP-Ua】花生采摘
			P1086 花生采摘 题目描述 鲁宾逊先生有一只宠物猴,名叫多多.这天,他们两个正沿着乡间小路散步,突然发现路边的告示牌上贴着一张小小的纸条:“欢迎免费品尝我种的花生!――熊字”. 鲁宾逊先生和多多都 ... 
- Android学习笔记_38_图片的拖动、缩放功能和多点触摸
			一.基础知识: 引用 理论上 Android可以处理 多达256 个手指的触摸,大概只有章鱼哥能享受这种技术带来的便利.就编程人员来说,编写多点触摸和单点触摸的方式几乎一模一样.其奥秘在于Motion ... 
- Android学习笔记_25_多媒体之在线播放器
			一.布局文件: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:andr ... 
- mysql 统一字符编码
			配置文件中的注释可以有中文,但是配置项中不能出现中文 #在mysql的解压目录下,新建my.ini,然后配置 #1. 在执行mysqld命令时,下列配置会生效,即mysql服务启动时生效 [mysql ... 
- Alert Log删除
			标题:Renaming or Deleting the Alert Log While an Oracle Instance is Up & Running (文档 ID 74966.1) Q ... 
- 手机浏览器页面点击不跳转(Android手机部分浏览器) 浏览器双击放大网页 解决
			手机端web网页项目(angluar js 1.4.6) 1,网页项目开发过程中,使用PC浏览器能正常访问,IOS设备浏览器也能正常访问,但是使用Android部分浏览器进行访问的时候,链接偶尔不跳转 ... 
- 洛谷P1731 [NOI1999]生日蛋糕(爆搜)
			题目背景 7月17日是Mr.W的生日,ACM-THU为此要制作一个体积为Nπ的M层 生日蛋糕,每层都是一个圆柱体. 设从下往上数第i(1<=i<=M)层蛋糕是半径为Ri, 高度为Hi的圆柱 ... 
- ABAP术语-Company Code
			Company Code 原文:http://www.cnblogs.com/qiangsheng/archive/2008/01/16/1040816.html The smallest organ ... 
- 小程序登录 -41003: aes 小程序加密数据解密失败问题
			在微信小程的开发中,登录问题,一定要按照这样的顺序 1. 小程序请求login,拿到code 然后传给服务端: 2.服务端拿到code 到微信服务器拿到sessionKey :3.然后小程序调用ge ... 
