python入门（二十讲）：爬虫

什么是爬虫？

按照一定的规则，自动地抓取万维网信息的程序或脚本。

爬虫目的：

从网上爬取出来大量你想获取类型的数据，然后用来分析大量数据的类似点或者其他信息来对你所进行的工作提供帮助。

为什么选择python做爬虫

1. 抓取网页本身的接口

相比与其他静态编程语言，如java，c#，C++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib2包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize

2. 网页抓取后的处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。Life is short， u need python.

安装包

pip install beautifulsoup4

pip install lxml

pip install html5lib

python中的数字类型？

int,str,list,tuple,dict,set,bool,float,

前端页面的语言支撑：HTML,CSS,JS

html:标签，组成了页面结构

css:决定了字体的样式（加粗、下划线）

js：点击页面有跳转，和服务端有交互，做请求，解析数据

爬虫总体概括：

实践：

需求：拿到酷狗音乐网页中的新歌首发的所有数据，并将信息存储到本地。

from urllib import request #不用安装urllib

import time

import os

from bs4 import BeautifulSoup

url = "https://www.kugou.com/"

result = request.urlopen(url).read().decode("utf-8")

soup = BeautifulSoup(result,'lxml') #BeautifulSoup就是帮你分析html的结构，帮你拿数据#lxml指解析的模式

for i in soup.find_all("div"): #找到所有的div标签

if i.get("id")=="SongtabContent":

s = i.find_all("li")

with open("e:\\music.text","w",encoding = "utf-8") as f:

for i in s:

f.write("歌曲名称为：%s;"%i.a.select(".songName")[0].text) #.songName 等价于 class="songName",i.a.select(".songName")取出来的结果是列表的形式，需要用索引坐标取值，取第一个，".text"表示取出内容

f.write("歌曲播放连接为：%s;"%i.a.get("href")) #i.a.get("href")获取href属性的值

f.write("歌曲播放时间为：%s;"%i.a.select(".songTime")[0].text)

f.write(os.linesep)

注意：这不算真正意义上的爬虫，因为次级页面也会有很多链接，也需要爬一下。

.select表示找到这个标签。

.text表示取这个标签的值。

.get表示取出属性的值。

python入门（二十讲）：爬虫的更多相关文章

Java Web快速入门——全十讲
Java Web快速入门——全十讲这是一次培训的讲义,就是我在给学生讲的过程中记录下来的,非常完整,原来发表在Blog上,我感觉这里的学生可能更需要. 内容比较长,你可以先收藏起来,慢慢看. 第一讲 ...
python入门（十九讲）：多进程
1.进程概念进程(Process)是计算机中的程序关于某数据集合上的一次运行活动.是系统进行资源分配和调度的基本单位,是操作系统结构的基础. 狭义定义:进程是正在运行的程序的实例. 在早期面向进程设 ...
python入门（十二）：面向对象
1.场景:玩过游戏.主人公,进入了一个场景,有10个小怪物是一样的.有攻击力,血(100格).如果小怪物有多个数值需要管理,小怪物的血量.小怪物出现在屏幕的地点. 可以使用字典来进行记录: {&quo ...
Python学习二十八周（vue.js）
一.指令 1.一个例子简单实用vue: 下载vue.js(这里实用1.0.21版本) 编写html代码: <!DOCTYPE html> <html lang="en&qu ...
【Python实例二】BeautifulSoup爬虫简单实践
前言前面安装了BeautifulSoup库,现在就来实现一下吧. 目录一.Urllib库的使用二.BeautifulSoup的使用三. 一个示例 ----------------------- ...
笨办法学Python（二十九）
习题 29: 如果(if) 下面是你要写的作业,这段向你介绍了“if语句”.把这段输入进去,让它能正确执行.然后我们看看你是否有所收获. people = 20 cats = 30 dogs = 15 ...
Python入门二：函数
一.函数的定义和使用 1.基本结构: def 函数名(参数): """ 文档字符串 """ 函数体返回值 2.函数名: 和变量名命名规则一 ...
python入门（十）：XML和JSON解析
一.python解析XML 1.xml.dom.*模块,它是W3C DOM API的实现,若需要处理DOM API则该模块很适合,注意xml.dom包里面有许多模块,须区分它们间的不同: 2.xml. ...
Android入门(二十二)解析JSON
原文链接:http://www.orlion.ga/687/ 解析JSON的方式有很多,主要有官方提供的 JSONObject,谷歌的开源库 GSON.另外,一些第三方的开源库如 Jackson.Fa ...

随机推荐

css3制作网页动画
一.CSS3变形 CSS3变形是一些效果的集合如平移.旋转.缩放.倾斜效果每个效果都可以称为变形(transform),它们可以分别操控元素发生平移.旋转.缩放.倾斜等变化二.CSS3位移:tr ...
Docker最全教程——从理论到实战（十八）
前言 VS Code是一个年轻的编辑器,但是确实是非常犀利.通过本篇,老司机带你使用VS Code玩转Docker——相信阅读本篇之后,无论是初学者还是老手,都可以非常方便的玩转Docker了!所谓是 ...
最短路-B - 六度分离
B - 六度分离 1967年,美国著名的社会学家斯坦利·米尔格兰姆提出了一个名为“小世界现象(small world phenomenon)”的著名假说,大意是说,任何2个素不相识的人中间最多只隔着6 ...
java学习笔记之反射—反射和工厂模式
简单工厂模式又称为静态工厂方法模式,它是由工厂对象来决定要创建哪一种类的实例化对象. 静态工厂代码: class Factory{ private Factory() {} public static ...
css动画 transition
比如输入框触交渐变在原来的属性添加 : .form-control{-webkit-transition: all .3s; transition: all .3s;} .form-control: ...
go-web 获取get/post请求中的请求头和表单数据
package main import ( "fmt" "net/http" ) func handler(w http.ResponseWriter, r * ...
nginx proxy_set_header Host $host 和 proxy_set_header Host $http_host 的作用对比
转载自https://www.jianshu.com/p/7a8a7eb3707a 1.浏览器直接访问服务,获取到的 Host 包含浏览器请求的 IP 和端口测试服务器,centos 7 sudo ...
Gin_中间件
gin可以构建中间件,但它只对注册过的路由函数起作用对于分组路由,嵌套使用中间件,可以限定中间件的作用范围中间件分为全局中间件,单个路由中间件和群组中间件 gin中间件必须是一个 gin.Hand ...
使用node搭建静态资源服务器
安装 npm install yumu-static-server -g 使用 shift+鼠标右键在此处打开Powershell 窗口 server # 会在当前目录下启动一个静态资源服务器,默 ...
join方法，wait()和sleep()
join方法解释:方法x.join()的作用是使所属线程x 正常执行run()中的方法,而使得调用x.join()的线程处于无限期阻塞状态,等待x线程销毁后再继续执行线程z后面的代码. 1.方法joi ...

python入门（二十讲）：爬虫

python入门（二十讲）：爬虫的更多相关文章

随机推荐

热门专题