Python爬虫爬取ECVA论文标题、作者、链接

  1 import re

  2 import requests

  3 from bs4 import BeautifulSoup

  4 import lxml

  5 import traceback

  6 import time

  7 import json

  8 from lxml import etree

  9 def get_paper():

 10     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/267_ECCV_2020_paper.php

 11     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/283_ECCV_2020_paper.php

 12     #https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/343_ECCV_2020_paper.php

 13     url='https://www.ecva.net/papers.php'

 14     headers = {

 15         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'

 16     }

 17     response=requests.get(url,headers)

 18     response.encoding='utf-8'

 19     page_text=response.text

 20     #输出页面html

 21     # print(page_text)

 22     soup = BeautifulSoup(page_text,'lxml')

 23     all_dt=soup.find_all('dt',class_='ptitle')

 24     #暂存信息

 25     temp_res=[]

 26     #最后结果集

 27     res=[]

 28     #链接

 29     link_res = []

 30     for dt in all_dt:

 31         single_dt=str(dt)

 32         single_soup=BeautifulSoup(single_dt,'lxml')

 33         title=single_soup.find('a').text

 34         #存标题

 35         temp_res.append(title)

 36         #存摘要

 37

 38         #存关键字

 39

 40         #存源链接

 41         sourcelink=single_soup.find('a')['href']

 42         sourcelink="https://www.ecva.net/"+sourcelink

 43         temp_res.append(sourcelink)

 44         res.append(temp_res)

 45         temp_res=[]

 46     #爬取作者和pdf文件链接

 47     all_dd=soup.find('div',id='content')

 48     all_dd=all_dd.find_all('dd')

 49     flag=0

 50     author=[]

 51     download=[]

 52     pdfinfo=[]

 53     for item in all_dd:

 54         if(flag%2==0):

 55             #保存作者

 56             author.append(item)

 57         else:

 58             linktext=str(item)

 59             linksoup=BeautifulSoup(linktext,'lxml')

 60             link_res.append(linksoup.find_all('div',class_='link2'))

 61             #解析download 和 pdfinfo

 62         flag = flag + 1

 63     """

 64     继续使用beautifulsoup

 65     download_text 和 pdfinfo_text

 66     存储author

 67     "https://www.ecva.net/"

 68     """

 69     linkflag=1

 70     print(len(link_res))

 71     for items in link_res:

 72         for item in items:

 73             if(linkflag%2==0):

 74                 pdfinfo_text = str(item)

 75             else:

 76                 download_text = str(item)

 77             linkflag=linkflag+1

 78         download_text_soup=BeautifulSoup(download_text,'lxml')

 79         pdfinfo_text_soup=BeautifulSoup(pdfinfo_text,'lxml')

 80         #解析两个链接

 81         download.append("https://www.ecva.net/"+download_text_soup.find('a')['href'])

 82         pdfinfo.append(pdfinfo_text_soup.find('a')['href'])

 83     print(len(download))

 84     print(len(pdfinfo))

 85     # for item in download :

 86     #     print(item)

 87     print("------------------------------")

 88

 89     #把作者和download pdfinfo 存到res

 90     for i in range(0,len(res)):

 91         #添加作者

 92         res[i].append(author[0])

 93         #添加download

 94         res[i].append(download[0])

 95         #添加pdfinfo

 96         res[i].append(pdfinfo[0])

 97     #遍历最终结果集

 98     print(res[0])

 99     # for item in res:

100     #     print(item)

101     return

102

103 if (__name__=='__main__'):

104     get_paper()

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

Python爬虫爬取豆瓣电影名称和链接，分别存入txt，excel和数据库
前提条件是python操作excel和数据库的环境配置是完整的,这个需要在python中安装导入相关依赖包: 实现的具体代码如下: #!/usr/bin/python# -*- coding: utf ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

ghost方式批量安装win7
1. 需求介绍: 最近工作中需要给几百台PC安装win7操作系统,同时需要安装系统驱动和一些办公软件.刚开始是使用U盘制作的win7启动盘安装,发现效率太低,因为中间需要人监控安装进度以待安装好系 ...
Java集合框架学习（十三） Collections类详解
Collections类介绍这个类操作或返回集合的专有静态方法. 它包含多态算法,利用wrappers(封装器)返回指定集合类型的新集合,以及其他一些零散功能. 如果该类的方法引用的集合或类对象为n ...
dpt-shell 抽取壳实现原理分析(加壳逻辑)
开源项目位置(为大佬开源精神点赞) https://github.com/luoyesiqiu/dpt-shell 抽取壳分为两个步骤加壳逻辑: 一对apk进行解析,将codeItem抽出到一个文 ...
【LeetCode链表#8】翻转链表（双指针+递归）/K个一组翻转
翻转链表力扣题目链接(opens new window) 题意:反转一个单链表. 示例: 输入: 1->2->3->4->5->NULL 输出: 5->4-> ...
【Azure 环境】标准版 Logic App 如何查看 Workflow的执行成功数和失败数的指标呢？
问题描述在Azure中创建逻辑应用(Logic App),有两种计划类型.一是消费型,另一种是标准型. 在消费型的Logic App Metrics页面中,我们可以看见Workflow的执行成功数指 ...
[Linux] rockylinux9.1 的部署使用过程 -- ZFS 虚拟机 cockpit podman samba
备选镜像 | Rocky Linux rocky linux 使用记录 - 个人文章 - SegmentFault 思否 # https://blog.csdn.net/NeverGUM/articl ...
影刀rpa：关于if单条件切换到多条件时的不便之处
现有需求,只判断一个条件是否满足即可,但随着后续业务开发,这里得if就需要判断多个条件,此时要是想将if单条件改为多条件的话,就得先拉一个if多条件的指令,然后再将if单条件中的语句全部移动到if多条 ...
rpa使用自带数据抓取方式抓取页面元素
大家好,我是一方. 今天我们一起看一下如何使用rpa自带的功能来抓取自己想要的页面元素,这里我们以抖音为例来抓取某个领域的作者列表. 想要获取页面元素,大概的流程为:确定页面元素.分析页面元素.使用自 ...
Codeforces Round 770 (Div. 2)（数学异或奇偶性）
B. Fortune Telling 拿到题目看数据范围之后就知道暴力显然是来不及的. 那么只能找性质. \(考虑x和x+3的不同 \quad 奇偶性不同\) \(然后考虑两种操作对于一个数的奇偶性的 ...
[转] VSCode中 Vetur插件排版Vue文件 Col 标签子标签不被缩进的问题 iview viewDesign 自动格式化
[转] VSCode中 Vetur插件排版Vue文件 Col 标签子标签不被缩进的问题 iview viewDesign 自动格式化问题 Col标签不对齐首先直接放解决办法在 vsCode se ...

Python爬虫爬取ECVA论文标题、作者、链接

Python爬虫爬取ECVA论文标题、作者、链接的更多相关文章

随机推荐

热门专题