本想给随机加个序号,才发现还得去返回看看文章的序号。好在cnblog能断点自动保存。 作为一个小程序员,点赞的同时还在想,谁知道咋实现这种实时保存呢?有知道的给个参考文档呗。太感激了!

重点在这里

有几个种技术我现在必须用最快的时间属性并掌握! 最急的是vue,其次是爬虫

待掌握

  1. node+mongodb+ vue

  2. 爬虫系列
    - 自带模块
    - 第三方模块

  3. Django和flask

看到一个不错的爬虫博客,简单整理下思路

python 学习思路是什么?

爬虫基本流程

  1. 发起请求
  2. 获得相应内容
  3. 解析内容
  4. 保存数据

什么是Reques,Response

应该详细了解一下HTTP请求!这几点比较重要

  1. 从输入url到得到结果的流程
  2. HTTP请求
  3. 请求方式
  4. URL
  5. 请求头
  6. 请求体
  7. 响应状态
  8. 响应头
  9. 响应体

能爬取什么样的数据

其实只要是网页中能看到的内容都可以爬取.简单分下类

  1. 网页文本: html文档,json/xml格式文本等
  2. 图片: 获取到的是二进制,保存为图片格式
  3. 视频: 也是二进制,

爬虫和反爬虫战争一直在继续, 爬虫必胜,只是难度增加而已!

如何解析数据

  1. 直接处理
  2. json 解析
  3. xml解
  4. 正则. 式解析
  5. BeautifulSoup 解析处理
  6. PyQuery 解析
  7. XPath 解析

如果抓取的页面数据和浏览器里看到的不一样咋办?

出现这种情况.表示战争已经开始了! 很多网站中的数据都是通过js,ajax 动态加载的! 核心是动态哦!! 所以直接通过get 请求获取的页面和浏览器显示不同! 也叫"动态解析". 现在我们就需要模拟浏览器了!

  1. 分析 ajax
  2. Seleninm/webdriver (操作浏览器)动态爬虫、自动化测试工具
  3. Splash
  4. PyV8 , Ghost.py

强调一下核心模拟浏览器的操作行为

如何保持数据?

  1. 文本: 存文本,json,xml
  2. 关系型数据库: SQLite, mysql, oracle, sql Server 等结构化数据
  3. 非关系型数据库: MongoDB, Redis 等 key:vaue 键值对形式存储

print('无数次猛然发现,要弄点和实际略微挂钩的功能,咋都得熟悉这么多技术! ')
print('程序员类还是有原因的, 哪个行和技术更新这么快')
print('IT更新到底多快呢? 百度下: 摩尔定律!')

(Python爬虫01)-本想给随笔加个序号才发现这么不方便的更多相关文章

  1. Python爬虫-01:爬虫的概念及分类

    目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...

  2. Python爬虫01——第一个小爬虫

    Python小爬虫——贴吧图片的爬取 在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能 然后实现对用户所给的链接进行抓取 最后要有一定的 ...

  3. python爬虫01在Chrome浏览器抓包

    尽量不要用国产浏览器,很多是有后门的 chrome是首选 百度 按下F12 element标签下对应的HTML代码 点击Network,可以看到很多请求 HTTP请求的方式有好几种,GET,POST, ...

  4. python爬虫之requests库

    在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...

  5. python爬虫实战(六)--------新浪微博(爬取微博帐号所发内容,不爬取历史内容)

    相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...

  6. python爬虫基础要学什么,有哪些适合新手的书籍与教程?

    一,爬虫基础: 首先我们应该了解爬虫是个什么东西,而不是直接去学习带有代码的内容,新手小白应该花一个小时去了解爬虫是什么,再去学习带有代码的知识,这样所带来的收获是一定比你直接去学习代码内容要多很多很 ...

  7. 如何快速赚钱:Python爬虫

    Python爬虫和毛爷爷的关系:Python是最简单最流行的开发语言,毛爷爷是最招人喜欢的人民币.如果你学会了Python爬虫,就可以挣更多的毛爷爷. 大家发现没有,实际上Python早已经火起来了, ...

  8. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  9. python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 python爬虫入门:什么是爬虫,怎么玩爬虫? 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是 ...

随机推荐

  1. 使用vue搭建项目(创建手脚架)

    第一步:切换到创建的目录 创建项目 vue cerate [model] 第二步:切换到创建好的项目,然后创建element vue add element 第三步:创建router vue add ...

  2. 【luoguP1086】【2004NOIP-Ua】花生采摘

    P1086 花生采摘 题目描述 鲁宾逊先生有一只宠物猴,名叫多多.这天,他们两个正沿着乡间小路散步,突然发现路边的告示牌上贴着一张小小的纸条:“欢迎免费品尝我种的花生!――熊字”. 鲁宾逊先生和多多都 ...

  3. Android学习笔记_38_图片的拖动、缩放功能和多点触摸

    一.基础知识: 引用 理论上 Android可以处理 多达256 个手指的触摸,大概只有章鱼哥能享受这种技术带来的便利.就编程人员来说,编写多点触摸和单点触摸的方式几乎一模一样.其奥秘在于Motion ...

  4. Android学习笔记_25_多媒体之在线播放器

    一.布局文件: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:andr ...

  5. mysql 统一字符编码

    配置文件中的注释可以有中文,但是配置项中不能出现中文 #在mysql的解压目录下,新建my.ini,然后配置 #1. 在执行mysqld命令时,下列配置会生效,即mysql服务启动时生效 [mysql ...

  6. Alert Log删除

    标题:Renaming or Deleting the Alert Log While an Oracle Instance is Up & Running (文档 ID 74966.1) Q ...

  7. 手机浏览器页面点击不跳转(Android手机部分浏览器) 浏览器双击放大网页 解决

    手机端web网页项目(angluar js 1.4.6) 1,网页项目开发过程中,使用PC浏览器能正常访问,IOS设备浏览器也能正常访问,但是使用Android部分浏览器进行访问的时候,链接偶尔不跳转 ...

  8. 洛谷P1731 [NOI1999]生日蛋糕(爆搜)

    题目背景 7月17日是Mr.W的生日,ACM-THU为此要制作一个体积为Nπ的M层 生日蛋糕,每层都是一个圆柱体. 设从下往上数第i(1<=i<=M)层蛋糕是半径为Ri, 高度为Hi的圆柱 ...

  9. ABAP术语-Company Code

    Company Code 原文:http://www.cnblogs.com/qiangsheng/archive/2008/01/16/1040816.html The smallest organ ...

  10. 小程序登录 -41003: aes 小程序加密数据解密失败问题

    在微信小程的开发中,登录问题,一定要按照这样的顺序 1. 小程序请求login,拿到code 然后传给服务端:  2.服务端拿到code 到微信服务器拿到sessionKey :3.然后小程序调用ge ...