Python爬虫开发【第1篇】【beautifulSoup4解析器】

CSS 选择器：BeautifulSoup4

Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

pip 安装：pip install beautifulsoup4

官方文档：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

抓取工具	速度	使用难度	安装难度
正则	最快	困难	无（内置）
BeautifulSoup	慢	最简单	简单
lxml	快	简单	一般

使用BeautifuSoup4爬腾讯社招页面

地址：http://hr.tencent.com/position.php?&start=10#a

 # bs4_tencent.py

 from bs4 import BeautifulSoup

 import urllib2

 import urllib

 import json    # 使用了json格式存储

 def tencent():

     url = 'http://hr.tencent.com/'

     request = urllib2.Request(url + 'position.php?&start=10#a')

     response =urllib2.urlopen(request)

     resHtml = response.read()

     output =open('tencent.json','w')

     html = BeautifulSoup(resHtml,'lxml')

 # 创建CSS选择器

     result = html.select('tr[class="even"]')

     result2 = html.select('tr[class="odd"]')

     result += result2

     items = []

     for site in result:

         item = {}

         name = site.select('td a')[0].get_text()

         detailLink = site.select('td a')[0].attrs['href']

         catalog = site.select('td')[1].get_text()

         recruitNumber = site.select('td')[2].get_text()

         workLocation = site.select('td')[3].get_text()

         publishTime = site.select('td')[4].get_text()

         item['name'] = name

         item['detailLink'] = url + detailLink

         item['catalog'] = catalog

         item['recruitNumber'] = recruitNumber

         item['publishTime'] = publishTime

         items.append(item)

     # 禁用ascii编码，按utf-8编码

     line = json.dumps(items,ensure_ascii=False)

     output.write(line.encode('utf-8'))

     output.close()

 if __name__ == "__main__":

    tencent()

Python爬虫开发【第1篇】【beautifulSoup4解析器】的更多相关文章

Python爬虫教程-23-数据提取-BeautifulSoup4（一）
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc. ...
Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|
Python爬虫开发与项目实战从基本的爬虫原理开始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者入门,之后根据当前风起云涌的云计算.大数据热潮,重点讲述了云计算的相关内容及其在爬虫中的应 ...
Python爬虫开发与项目实战
Python爬虫开发与项目实战(高清版)PDF 百度网盘链接:https://pan.baidu.com/s/1MFexF6S4No_FtC5U2GCKqQ 提取码:gtz1 复制这段内容后打开百度 ...
Python爬虫教程-25-数据提取-BeautifulSoup4（三）
Python爬虫教程-25-数据提取-BeautifulSoup4(三) 本篇介绍 BeautifulSoup 中的 css 选择器 css 选择器使用 soup.select 返回一个列表通过标 ...
Python爬虫教程-24-数据提取-BeautifulSoup4（二）
Python爬虫教程-24-数据提取-BeautifulSoup4(二) 本篇介绍 bs 如何遍历一个文档对象遍历文档对象 contents:tag 的子节点以列表的方式输出 children:子节 ...
Python爬虫开发
1. 语法入门 Python教程 2. 爬虫学习系列教程 1)宁哥的小站 https://github.com/lining0806/PythonSpiderNotes 2)Python爬虫开发 3) ...
Python爬虫开发【第1篇】【动态HTML、Selenium、PhantomJS】
JavaScript JavaScript 是网络上最常用也是支持者最多的客户端脚本语言.它可以收集用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏. 我们可以在网页 ...
Python爬虫开发【第1篇】【Json与JsonPath】
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与 ...
Python爬虫开发教程
正文现在Python语言大火,在网络爬虫.人工智能.大数据等领域都有很好的应用.今天我向大家介绍一下Python爬虫的一些知识和常用类库的用法,希望能对大家有所帮助.其实爬虫这个概念很简单,基 ...

随机推荐

获取select标签选中的值的三种方式
var obj = document.getElementByIdx_x(”testSelect”); //定位id var index = obj.selectedIndex; // 选中索引 va ...
JavaSE-15 Log4j参数详解
一:日志记录器输出级别,共有5级(从前往后的顺序排列) ①fatel:指出严重的错误事件将会导致应用程序的退出 ②error:指出虽然发生错误事件,但仍然不影响系统的继续运行 ③warn:表明会出现潜 ...
iis如何在dos中注册
iis如何在dos中注册 2009-09-23 08:13 提问者采纳 cd \cd c:\windows\microsoft.net\framework\v2.0.50727aspnet_r ...
[python] 时间序列分析之ARIMA
1 时间序列与时间序列分析在生产和科学研究中,对某一个或者一组变量进行观察测量,将在一系列时刻所得到的离散数字组成的序列集合,称之为时间序列. 时间序列分析是根据系统观察得到的时间序列数据, ...
iphone X 的适配
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Java中9大内置基本数据类型Class实例和数组的Class实例（转载）
https://www.jianshu.com/p/58976c8bf1e1
CentOS虚拟机挂载Windows共享目录
Windows文件共享使用了SMB协议(又称CIFS协议),该协议主要提供了文件共享和打印共享功能,分别使用TCP 139和445端口.UNIX.Linux系统提供了该协议的开源实现samba.为了方 ...
Kvm：启动报错：error: internal error: process exited while connecting to monitor: 2018-11-12T01:47:14.993371Z qemu-system-x86_64: cannot set up guest memory 'pc.ram': Cannot allocate memory
今天有台kvm挂了,物理机启动时报错很明显看报错显示内存不足,无法分配内存,查看物理机内存使用正常,.xml修改虚机内存后启动依然报错报错: 这时候需要看一下主机确保可以分配多少内存 sysctl ...
ruby on rails安装(win7x64)
Ruby下载地址http://rubyinstaller.org/downloads/ (以安装2.1.7为例,2.2.3未能安装成功) 安装完之后测试是否安装成功
MyBaties异常之 ORA-00918: 未明确定义列
原因: 如果a表与b表连接,且a与b中存在两个相同的字段,则必须指明字段是哪个表的箭头所致位置没有指定ROOM_ID为那个表的,应修改为t1.ROOM_ID

Python爬虫开发【第1篇】【beautifulSoup4解析器】

CSS 选择器：BeautifulSoup4

使用BeautifuSoup4爬腾讯社招页面

Python爬虫开发【第1篇】【beautifulSoup4解析器】的更多相关文章

随机推荐

热门专题