python爬取中国知网部分论文信息

爬取指定主题的论文，并以相关度排序。

 #!/usr/bin/python3

 # -*- coding: utf-8 -*-

 import requests

 import linecache

 import random

 from bs4 import BeautifulSoup

 if __name__=="__main__":

     keywords='通信' ### 查询的主题

     n=0

     target='http://search.cnki.net/search.aspx?q='+str(keywords)+'&rank=relevant&cluster=all&val=CJFDTOTAL&p={}'

     user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'

     headers = {'User-Agent':user_agent}

     for i in range(10):

         i=i*15

         target=target.format(i)

         req=requests.get(url=target)

         html=req.text

         html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')

         bf=BeautifulSoup(html,"html.parser")

         texts=bf.find('div',class_='articles')

         texts_div=texts.find_all('div',class_='wz_content')

         for item in texts_div:

             item_name=item.find('a').text

             item_href=item.find('a')['href']

             item_refer2=item.find('span',class_='count').text

             print('{} {} {}\n'.format(item_name,item_href,item_refer2))

     print(n)

python爬取中国知网部分论文信息的更多相关文章

Python爬取中国知网文献、参考文献、引证文献
前两天老师派了个活,让下载知网上根据高级搜索得到的来源文献的参考文献及引证文献数据,网上找了一些相关博客,感觉都不太合适,因此特此记录,希望对需要的人有帮助. 切入正题,先说这次需求,高级搜索,根据中 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
Python爬取中国票房网所有电影片名和演员名字，爬取齐鲁网大陆所有电视剧名称
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
初识python 之爬虫：爬取中国天气网数据
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
python爬取中国大学排名
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学目标:爬取最好大学网前50名大学代码如下: import requests from bs4 import Beautiful ...
python爬取天气后报网
前言大二下学期的大数据技术导论课上由于需要获取数据进行分析,我决定学习python爬虫来获取数据.由于对于数据需求量相对较大,我最终选择爬取天气后报网,该网站可以查询到全国各地多年的数据,而且相对 ...
（python爬取小故事网并写入mysql）
前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手 ...
steam夏日促销悄然开始，用Python爬取排行榜上的游戏打折信息
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...

随机推荐

使用SQLserver Management Studio连接VS2012自带数据库
下载 Microsoft® SQL Server® 2008 Management Studio Express http://www.microsoft.com/zh-CN/download/det ...
关于ESET占用CPU严重的解决方案||ESET CPU 100%||用迅雷时ESET占用CPU（6月22日再次更新）
关于ESET占用CPU严重的解决方案本文根据原帖有适量删改. ESET 的杀毒软件历来以占用资源少,CPU消耗少著称,可是很多朋友(特别是中国大陆的朋友)反应ESS & EAV 间歇性占用 ...
微软并发Key-Value存储库FASTER介绍
微软支持并发的Key-Value 存储库有C++与C#两个版本.号称迄今为止最快的并发键值存储.下面是C#版本翻译: FASTER C#可在.NET Framework和.NET Core中运行,并且 ...
Ubuntu16.04下升级Python到3.6
转: 这里有一篇帖子是说从源代码开始安装,这种方式原来尝试过,需要删除系统默认的软链命令,感觉比较粗暴,现在在想有没有更好的方式呢? 找到一个帖子:http://ubuntuhandbook.org ...
找不到 cucumber.api.cli.Main 的报错解决方案
最近玩IDEA,发现导入的项目有问题,报了一个“找不到或者不存在cucumber.api.cli.Main”的错误. 后来发现是新版的IDEA在导入时没有提示,以至于我没有配置项目对应的Tomcat服 ...
[2018-01-13] 什么是Django
什么是Django? Django是一个基于Python的高级Web开发框架它能够让开发人员进行高效且快速的开发高度集成(不用自己造轮子),免费并且开源(内部已经实现了许多高级的功能) 浏览器浏览 ...
Oracle Dorp 表数据恢复
利用Oracle 数据回闪机制进行恢复,当一个表被drop掉,表会被放入recyclebin回收站,可通过回收站做表的闪回.表上的索引.约束等同样会被恢复不支持sys/system用户表空间对象,可通 ...
[考试反思]0914csp-s模拟测试43：破绽
T1会正解.爆int了,代码里一大堆long long但是有一个地方落了.-70分. 离考试结束还有19秒的时候发现手模样例爆负数了,没来得及改. T2没想.打暴力了.然而实际很好想...早读5分钟就 ...
CSPS模拟 75
我身边 mikufun:矩阵树学学学 Lrefrain:矩阵题刷刷刷 Dybala:神仙定理康康康 skyh:讨论讨论讨论(most mei face) DeepinC:我过样例了! Mouding: ...
C语言变量名和地址的关系【转载】//基础的东西
原文链接:http://blog.csdn.net/ssff1/archive/2009/12/13/4998787.aspx 变量名不占空间变量:用来标识(identify)一块内存区域,这块区域 ...

python爬取中国知网部分论文信息

python爬取中国知网部分论文信息的更多相关文章

随机推荐

热门专题