Python爬虫爬取ECVA论文标题、作者、链接

  1 import re

  2 import requests

  3 from bs4 import BeautifulSoup

  4 import lxml

  5 import traceback

  6 import time

  7 import json

  8 from lxml import etree

  9 def get_paper():

 10     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/267_ECCV_2020_paper.php

 11     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/283_ECCV_2020_paper.php

 12     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/343_ECCV_2020_paper.php

 13     url='https://www.ecva.net/papers.php'

 14     headers = {

 15         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'

 16     }

 17     response=requests.get(url,headers)

 18     response.encoding='utf-8'

 19     page_text=response.text

 20     #输出页面html

 21     # print(page_text)

 22     soup = BeautifulSoup(page_text,'lxml')

 23     all_dt=soup.find_all('dt',class_='ptitle')

 24     #暂存信息

 25     temp_res=[]

 26     #最后结果集

 27     res=[]

 28     #链接

 29     link_res = []

 30     for dt in all_dt:

 31         single_dt=str(dt)

 32         single_soup=BeautifulSoup(single_dt,'lxml')

 33         title=single_soup.find('a').text

 34         #存标题

 35         temp_res.append(title)

 36         #存摘要

 37

 38         #存关键字

 39

 40         #存源链接

 41         sourcelink=single_soup.find('a')['href']

 42         sourcelink="https://www.ecva.net/"+sourcelink

 43         temp_res.append(sourcelink)

 44         res.append(temp_res)

 45         temp_res=[]

 46     #爬取作者和pdf文件链接

 47     all_dd=soup.find('div',id='content')

 48     all_dd=all_dd.find_all('dd')

 49     flag=0

 50     author=[]

 51     download=[]

 52     pdfinfo=[]

 53     for item in all_dd:

 54         if(flag%2==0):

 55             #保存作者

 56             author.append(item)

 57         else:

 58             linktext=str(item)

 59             linksoup=BeautifulSoup(linktext,'lxml')

 60             link_res.append(linksoup.find_all('div',class_='link2'))

 61             #解析download 和 pdfinfo

 62         flag = flag + 1

 63     """

 64     继续使用beautifulsoup

 65     download_text 和 pdfinfo_text

 66     存储author

 67     "https://www.ecva.net/"

 68     """

 69     linkflag=1

 70     print(len(link_res))

 71     for items in link_res:

 72         for item in items:

 73             if(linkflag%2==0):

 74                 pdfinfo_text = str(item)

 75             else:

 76                 download_text = str(item)

 77             linkflag=linkflag+1

 78         download_text_soup=BeautifulSoup(download_text,'lxml')

 79         pdfinfo_text_soup=BeautifulSoup(pdfinfo_text,'lxml')

 80         #解析两个链接

 81         download.append("https://www.ecva.net/"+download_text_soup.find('a')['href'])

 82         pdfinfo.append(pdfinfo_text_soup.find('a')['href'])

 83     print(len(download))

 84     print(len(pdfinfo))

 85     # for item in download :

 86     #     print(item)

 87     print("------------------------------")

 88

 89     #把作者和download pdfinfo 存到res

 90     for i in range(0,len(res)):

 91         #添加作者

 92         res[i].append(author[0])

 93         #添加download

 94         res[i].append(download[0])

 95         #添加pdfinfo

 96         res[i].append(pdfinfo[0])

 97     #遍历最终结果集

 98     print(res[0])

 99     # for item in res:

100     #     print(item)

101     return

102

103 if (__name__=='__main__'):

104     get_paper()

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

U盘安装win7提示缺少所需的CD/DVD驱动器设备驱动程序
问题: 最近使用U盘启动盘安装win7,系统弹出提示框: 解决方法: U盘别插在usb3.0的口(蓝色),换成一个usb2.0的口就可以了
spring事务的传播
目录事务的传播行为类型注意事项关于事务的传播,我们先确定一个场景:方法A调用方法B,方法A可能存在事务,也可能不存在事务,我们这里重点关注方法B上定义的事务传播行为,以及方法B中出现异常时,方法 ...
TerminateJobObject是使用
注意: AssignProcessToJobObject仅适用于win32 desktop app, 比如notepad是适用的,calculator是不适用的下面的demo是将notepad的句柄 ...
centos docker服务问题
概述 docker的应用版本正式上线,结果一上线就出各种幺蛾子. 本文档主要介绍centos系统安装docker和启动的问题解决方法. 环境 docker registry:2 centos 6 &a ...
DataGear 制作支持全国、省、市三级数据钻取效果的地图数据可视化看板
通过DataGear的参数化数据集.图表联动和看板API功能,可以很方便地制作支持数据钻取效果的数据可视化看板. 首先,以上级地区名为参数,新建一个参数化SQL数据集: SELECT COL_NAME ...
【Azure 应用服务】Function App中的函数(Functions)删除问题
问题描述 Function App 中的函数如何删除问题问题分析 1)在Function App的门户上,点击"Delete"进行删除 2) 进入Function App的高级管 ...
STM32SPIFLASH读写
STM32SPIFLASH读写 1.1 SPI注意事项 SPI是同步通信,即通信双方每次信息交互必会带有一问一答,这代表在正常的单核MCU(例如STM32)中很难实现软件模拟的双向SPI通信(TFT屏 ...
使用 Docker 部署 Answer 问答平台
1)介绍 GitHub:https://github.com/apache/incubator-answer Answer 问答社区是在线平台,让用户提出问题并获得回答.用户可以发布问题并得到其他用户 ...
mysql for update是锁表还是锁行
转载至我的博客 https://www.infrastack.cn ,公众号:架构成长指南在并发一致性控制场景中,我们常常用for update悲观锁来进行一致性的保证,但是如果不了解它的机制,就进 ...
IDEA导入项目jar包=来自本地仓库-一直报红线的解决办法
一.问题由来现在开发的Java项目全部都是再内网进行开发,和互联网是完全物理隔绝的,所以在最开始配置IDEA的时候,项目中需要导入的Jar包都是从本地仓库中进行导入,在maven的配置文件里面配置 ...

Python爬虫爬取ECVA论文标题、作者、链接

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

随机推荐

热门专题