Python 小爬虫流程总结
接触Python3一个月了,在此分享一下知识点,也算是温故而知新了。
接触python之前是做前端的。一直希望接触面能深一点。因工作需求开始学python,几乎做的都是爬虫。。第一个demo就是爬取X博数据,X博的API我在这就不吐槽了 。用过的估计都晓得。
好了 。下面进入正题,,一个小demo的开始与结束 。
1.首先对于像我一样0基础的,推荐几个网址:
廖雪峰的教程从安装到基本语法、模块安装等等基础都不简单易懂。这里就不赘述了
(1).http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
(2)http://cn.python-requests.org/zh_CN/latest/ requests模块的语法。请求是爬数据的起始点 ,这个可以多了解(然而我也是初学)
(3)https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html BeautifulSoup模块(核心就是节点操作,和js的节点操作挺像)
爬取简单数据我个人总结就是大致的 3点:
1、请求数据
2、进行数据处理
3、写数据
第一点 请求的数据 会有几种可能:
1、很简单的html页面。。就直接requests就可以请求成功
2、js渲染的页面 (这种页面超多)requests请求一堆js数据 (以前我用的一个模块 selenium (代码基于浏览器运行) 推荐大家千万别用,性能 很差。)
3、需要登录才能获取(( ̄▽ ̄)")至今登录我都是用的cookie 请求登录—— 其他更好的方法目前还在研究途中 有验证码更麻烦 balabala...(chookie有效期长的话直接就用就好了 )
4、json数据
第二点 数据处理 会有几种可能:
1、请求的数据是简单的html结构页面--直接BS4解析就好了
2、请求的数据是json--导入json模块进行解析
3、请求的数据是简单的js渲染的html页面
遇到这种页面(通过抓包 或者简单的在网站上审查请求) 然后找的你想要的那部分数据(数据有可能是json数据 有可能嵌到js中)
如果是js渲染的html 例如这样:
这其实就是js拼写的html,,只要把其他无用的数据匹配掉用正则找到剩下想要的html文本就好了 。

然后BS4解析。。
第三点 写数据(当初一个编码格式弄了半天 在这我会多啰嗦几句)
open方法进行文件打开 里面的参数进行文件格式设置,读写文件、编码格式操作
with open("XXX.xxx","a",encoding="utf-8") as f :
f.write('''写入的数据''')
文件格式我用过的就是txt、csv 、xml 大部分文本格式都支持的。
a--是创建文件 每次写都是重新创建
w--是追加
a--是读数据
encoding="utf-8"这句话 不加encoding= 在windows系统下会报编码错误 linux不会。
然后就是数据量太大 写入到数据库
数据库就用sqlite 记得引入模块 import sqlite3(就是创建数据表等等。。教程里面都有。。)
目前先就这样,以后会不定期总结 也会直接更代码案例等...
Python 小爬虫流程总结的更多相关文章
- 【现学现卖】python小爬虫
1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用 ...
- python小爬虫练手
一个人无聊,写了个小爬虫爬取不可描述图片.... 代码太短,就暂时先往这里贴一下做备份吧. 注:这是很严肃的技术研究,当然爬下来的图片我会带着批判性的眼光审查一遍的.... :) #! /usr/ ...
- Python小爬虫-自动下载三亿文库文档
新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...
- Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
- 第一个Python小爬虫
这个爬虫是参考http://python.jobbole.com/81353/这篇文章写的 这篇文章可能年代过于久远,所以有些代码会报错,然后我自己稍微修改了一下,增加了一个getContentAll ...
- python 小爬虫爬取博客文章初体验
最近学习 python 走火入魔,趁着热情继续初级体验一下下爬虫,以前用 java也写过,这里还是最初级的爬取html,都没有用html解析器,正则等...而且一直在循环效率肯定### 很低下 imp ...
- python小爬虫【1】
爬取百度贴吧的图片 分析贴吧源代码,图片所在位置是:<img class="BDE_Image" src=“........jpg” pic_ext..... 所以正则匹配是 ...
- 整理python小爬虫
编码使我快乐!!! 我也不知道为什么,遇到自己喜欢的事情,就越想做下去,可以一个月不出门,但是不能一天没有电脑 掌握程度:对python有了一个更清晰的认识,自动化运维,也许可以用python实现呢, ...
- Python小爬虫练习
# coding: utf-8 __author__ = 'zhangcx' from urllib3 import PoolManager import codecs import json cla ...
随机推荐
- https简介/原理/部署【转】
转自: http://han.guokai.blog.163.com/blog/static/136718271201211631456811/ http://www.barretlee.com/bl ...
- Markdown语法 中文版
文章翻译自Markdown创始人JOHN GRUBER的 个人博客, 英文原文请参见 Markdown Syntax; 本文地址: http://www.cnblogs.com/ayning/p/43 ...
- 排序算法汇总(C/C++实现)
前言: 本人自接触算法近2年以来,在不断学习中越多地发觉各种算法中的美妙.之所以在这方面过多的投入,主要还是基于自身对高级程序设计的热爱,对数学的沉迷.回想一下,先后也曾参加过ACM大大小小的 ...
- Git中如何利用生成SSH个人公钥访问git仓库
Git中如何利用生成SSH个人公钥访问git仓库方法(这里以coding平台为例): 1. 获取 SSH 协议地址 在项目的代码页面点击 SSH 切换到 SSH 协议, 获得访问地址, 请使用这个地址 ...
- 练习JavaScript实现梯形乘法表
效果: 表格用html中的table,tr,td,然后利用for语句实现,循环输出行和列,再根据行列的数量进行乘法运算,第一个for循环输出9行,然后内嵌一个for,在条件表达式中取第一个for循环的 ...
- AnjularJS系列4 —— 单个页面加载多个ng-App
第四篇,插播, 单个页面加载多个ng-App 在写范例的时候发现的问题 一个页面有多个ng-app,angular只会处理第一个ng-app 需要加载两个ng-app,需要进行手动加载: angula ...
- 父子页面之间元素相互操作(iframe子页面)
js/jquery获取iframe子页面中元素的方法: 一.使用window.frames["iframe的ID"]获取元素 window.onload = function() ...
- webservice客户端添加soap Header信息
根据wsdl文件的header信息,在客户端中添加相应的header 1.wsdl信息如图 <soapenv:Envelope xmlns:soapenv="http://schema ...
- 内核编译报错Fedora20(友善)
首先说明我的宿主机环境:Fedora20 64位,开发板是友善Smart210(S5PV210——Cotex-A8)!!!马上入题! 按照开发板的用户手册来编译内核,一直报这个错误:/opt/Frie ...
- python2.7 学习笔记--列表的使用
同其它编程语言一样,python也提供了丰富的数据结构,以方便数据的处理.本文介绍两种最基本的数据集合,列表和元组的使用. 一.列表使用介绍 可以理解为一个有序的序列.其使用方式举例如下: list= ...