Python简单网络爬虫实战—下载论文名称，作者信息（下）

在Python简单网络爬虫实战—下载论文名称，作者信息（上）中，学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构，接下来记录我是如何找到所有author和title的

1.从soup中get到data类

soup中提供了select方法来筛选所需的类。该方法使用方法如下：

articlename = soup.select('title')

该语句即将soup中所有的title元素放到articlename中。select也有其他用法

articlename = soup.select('.data') #类前面要加"."

articlename = soup.select('#username')#ID这种唯一的元素，前加"#"

articlename = soup.select('.publ-list .entry.editor .data')#可以组合查找，publ-list类下面的entry.editor类下面的data类，按次序用空格隔开

articlename = soup.select('.publ-list .entry.editor .data .title')[0].contents[0]#title类中第一个元素的第一个文本内容

我们用如下语句get到该网页中所有的data类，这样就包含了所有的author和title，去除了网页中其他无关的元素，离目标更近了一步

soup.select('.publ-list .entry.inproceedings .data')

2.data类中筛选所有author与title

这是一个data类的所有内容。

其中author元素还有更下一级的结构

可以看到，一个data类中author和title元素并不是紧密连接的，在每个authro行之间，有“，”和“：”行隔开，在title行下方，还有dataPublished、genre等元素，但下方的元素都是固定的，行数也固定。因此我把一个.data描述为如下的多维数组：

[

[author1,url,name       ]

[","                    ]

[author2,url,name       ]

[":"                    ]

[<br>                   ]

[title,name             ]

["datePublished",content]

[</article>             ]

]

由于作者数量不固定，因此还要计算作者数量。因为每个author元素后面都会跟一个标点符号，因此似乎只要计算data类的长度减去4，再除以2就可以得到作者数量，然而在实际操作中发现，应该减去5。直到现在我也没有明白原因，可能这里需要补充HTML网站相关的知识。

authornum = int((len(articles)-5)/2)

得到了作者数量，就很容易定位到作者所在的行（下标）和title所在的行（下标）

观察元素内容可以看到，authorname和titlename都是唯一的文本，用以下命令获取即可

for i in range(0,authornum):

    authorlist.append(str(articles.contents[i*2].get_text()))

articlename = str(articles.contents[(authornum+1)*2].get_text())

至此，该脚本的所有难点都搞定啦，接下来就水到渠成，理一下逻辑就ok啦

Python简单网络爬虫实战—下载论文名称，作者信息（下）的更多相关文章

Python开发网络爬虫抓取某同城房价信息
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网 ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Python 3网络爬虫开发实战》中文PDF+源代码+书籍软件包
Python 3网络爬虫开发实战>中文PDF+源代码+书籍软件包下载:正在上传请稍后... 本书书籍软件包为本人原创,在这个时间就是金钱的时代,有些软件下起来是很麻烦的,真的可以为你们节省很多 ...
Python 3网络爬虫开发实战中文书籍软件包(原创)
Python 3网络爬虫开发实战中文书籍软件包(原创) 本书书籍软件包为本人原创,想学爬虫的朋友你们的福利来了.软件包包含了该书籍所需的所有软件. 因为软件导致这个文件比较大,所以百度网盘没有加速的 ...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载: 链接:https://pan.baidu.com/s/1H-VrvrT7wE9-CW2Dy2p0qA 提取码:35go ...
《Python 3网络爬虫开发实战中文》超清PDF+源代码+书籍软件包
<Python 3网络爬虫开发实战中文>PDF+源代码+书籍软件包下载: 链接:https://pan.baidu.com/s/18yqCr7i9x_vTazuMPzL23Q 提取码:i ...

随机推荐

第七章路由 82 名称案例-使用keyup事件实现
<!DOCTYPE html> <html lang="en"> <head> <meta charset="utf-8&quo ...
HDU6140--Hybrid Crystals（思维）
Hybrid Crystals Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)T ...
[ubuntu] 外挂硬盘
1. 查看磁盘信息 fdisk -l 这里我需要对sda进行分区,所以要进到sda中 2. 进到欲分区磁盘中 $ sudo fdisk /dev/sda Welcome to fdisk (util- ...
深入使用Vue + TS
深入使用TS 支持 render jsx 写法这里一共分两步首先得先让 vue 支持 jsx 写法再让 vue 中的 ts 支持 jsx 写法让 vue 支持 jsx 按照官方做法,安装Bab ...
[CSP-S模拟测试]:走路（期望DP+分治消元）
题目传送门(内部题100) 输入格式第一行两个整数$n,m$,接下来$m$行每行两个整数$u,v$表示一条$u$连向$v$的边.不保证没有重边和自环. 输出格式 $n-1$行每行一个整数,第$i$行 ...
CSS效果篇--这里有你想要的CSS3漂亮的自定义Checkbox各种复选框
在原来有一篇文章写到了<CSS效果篇--纯CSS+HTML实现checkbox的思路与实例>.这篇文章主要写各种自定义的checkbox复选框,实现如图所示的复选框: 大致的html代码都 ...
精讲JS逻辑运算符&&、||，位运算符|，&
1.JS中的||符号: 运算方法: 只要“||”前面为false,不管“||”后面是true还是false,都返回“||”后面的值. 只要“||”前面为true,不管“||”后面是true还是fals ...
石川es6课程---18、ES6 复习
石川es6课程---18.ES6 复习一.总结一句话总结: 无论在讲课和学习中,复习总结都是很重要二.ES6 复习变量 let const 声明方式能否重复声明作用域类型是否支持变量提 ...
黑马lavarel教程---5、模型操作（AR模式）
黑马lavarel教程---5.模型操作(AR模式) 一.总结一句话总结: AR: ActiveRecord :Active Record(活动记录),是一种领域模型模式,特点是一个模型类对应关系型 ...
Android通过JNI实现守护进程与卸载后跳转指定网页
JNI进程守护 c代码部分如下:JNIEXPORT void JNICALL Java_com_sharetimes_qude_jni_JNIDaemon_daemon(JNIEnv * env, j ...

Python简单网络爬虫实战—下载论文名称，作者信息（下）

Python简单网络爬虫实战—下载论文名称，作者信息（下）的更多相关文章

随机推荐

热门专题