Python开发笔记：网络数据抓取

网络数据获取（爬取）分为两部分：

1、抓取（抓取网页）

· urlib内建模块，特别是urlib.request

· Requests第三方库（中小型网络爬虫的开发）

· Scrapy框架（大型网络爬虫的开发）

2、解析（解析网页内容）

· BeautifulSoup库

· re模块（正则表达式）

或者第三方API抓取和解析。

Requests库（http://www.python-requests.org/en/master/）

基本方法：

requests.get()：请求获取指定URL位置的资源，对应HTTP协议中的GET方法。

import requests  

r=requests.get('https://book.douban.com/subject/1084336/')  

r.status_code

Out[3]: 200  

r.text

import requests  

re=requests.get('http://finance.sina.com.cn/realstock/company/sh000001/nc.shtml')  

print(re.text)

　　BeautifulSoup库（https://www.crummy.com/software/BeautifulSoup/bs4/doc/）

from bs4 import BeautifulSoup  

markup = '<p class="title"><b>The Little Prince</b></p>'  

soup = BeautifulSoup(markup, "lxml")  

soup.b

Out[5]: <b>The Little Prince</b>  

type(soup.b)

Out[6]: bs4.element.Tag  

tag=soup.p  

tag.name

Out[8]: 'p'  

tag.attrs

Out[9]: {'class': ['title']}  

tag['class']

Out[10]: ['title']  

tag.string

Out[11]: 'The Little Prince'  

type(tag.string)

Out[12]: bs4.element.NavigableString  

soup.find_all('b')

Out[13]: [<b>The Little Prince</b>]

import requests

from bs4 import BeautifulSoup

r=requests.get('https://book.douban.com/subject/1084336/')

soup=BeautifulSoup(r.text,'lxml')

pattern=soup.find_all('p','comment-content')

for item in pattern:

    print(item.string)

Python开发笔记：网络数据抓取的更多相关文章

Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
python学习笔记——爬虫的抓取策略
1 深度优先算法 2 广度/宽度优先策略 3 完全二叉树遍历结果深度优先遍历的结果:[1, 3, 5, 7, 9, 4, 12, 11, 2, 6, 14, 13, 8, 10] 广度优先遍历的结果 ...
使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎.所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
RCurl网络数据抓取
观察基础信息(服务器信息和提交给服务器的信息) d=debugGatherer()xpath="http://123.sogou.com/"url=getURL(xpath,deb ...
【Python入门只需20分钟】从安装到数据抓取、存储原来这么简单
基于大众对Python的大肆吹捧和赞赏,作为一名Java从业人员,我本着批判与好奇的心态买了本python方面的书<毫无障碍学Python>.仅仅看了书前面一小部分的我......决定做一 ...
吴裕雄--天生自然python学习笔记：WEB数据抓取与分析
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlpar ...
Python笔记（十一）——数据抓取例子
上班时候想看股票行情怎么办?试试这个小例子,5分钟拉去一次股票价格,预警: #coding=utf-8 import re import urllib2 import time import thre ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

前端与编译原理用js去运行js代码 js2run
# 前端与编译原理用js去运行js代码 js2run 前端与编译原理似乎相隔甚远,各种热门的框架都学不过来,那能顾及到这么多底层呢,前端开发者们似乎对编译原理的影响仅仅是"抽象语法树&qu ...
【剑指offer】链表中的倒数第k个结点
输入一个链表,输出该链表中倒数第k个结点. 分析: 定义两个结点p1和p2都指向头节点,p1先走k-1步,然后p1和p2一起走,当p1走到链表尾部时,p2指向的结点就是倒数第k个结点遍历一遍链表即可 ...
JVM中内存的设置和分配（最大内存，总内存，剩余内存的区别）
1.设置分配的内存大小 -vmargs -Xms128M -Xmx512M -XX:PermSize=64M -XX:MaxPermSize=128M -vmargs 说明后面是VM的参数,所以后面的 ...
golang 之 go-micro
在安装之前首先需要对go-micro有一定的了解 https://micro.mu/docs/cn/ go-micro中文文档 https://juejin.im/post/5cebafe6f265 ...
C# 对象集合初始化
一.自动实现的属性 public class Person { // C# 3之前我们定义属性时,一般会像下面这样去定义 // 首先会先定义私有字段,再定义属性来对字段进行访问 //private s ...
mssql server 排序以及like语句
当我们按照某个字段排序时,通常使用order by语句,如果该字段存在null值,则会把null值的这条放到最上面, 那我们是否有办法解决呢? 答案是肯定的: ORDER BY CASE WHEN O ...
python写文件无法换行的问题
python写文件无法换行的问题,用'\n' 不行,直接打印的出来了. 网上查了查,都说是用 ‘\r\n’ ,但是这样打出来,不仅换行了,还加了一个空行. windows平台最后结果是直接 ...
解决vue-cli项目开发中跨域问题
一.开发环境中跨域使用 Vue-cli 创建的项目,开发地址是 localhost:8080,需要访问非本机上的接口http://10.1.0.34:8000/queryRole.不同域名之间的访问 ...
Vue学习之npm常用命令及参数小结（十四）
NPM几个常用命令和参数的意思: npm install packagename 安装模块如不指定版本号默认会安装最新的版本 npm install packagename 0.0.1 安装指定版本 ...
结对编程（-java实现）
一 .Github项目地址:https://github.com/mushan520/Four-fundamental-rules-java.git ...

Python开发笔记：网络数据抓取

Python开发笔记：网络数据抓取的更多相关文章

随机推荐

热门专题