python爬取中国知网部分论文信息
爬取指定主题的论文,并以相关度排序。
#!/usr/bin/python3
# -*- coding: utf-8 -*-
import requests
import linecache
import random
from bs4 import BeautifulSoup if __name__=="__main__":
keywords='通信' ### 查询的主题
n=0
target='http://search.cnki.net/search.aspx?q='+str(keywords)+'&rank=relevant&cluster=all&val=CJFDTOTAL&p={}'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
headers = {'User-Agent':user_agent}
for i in range(10):
i=i*15
target=target.format(i)
req=requests.get(url=target)
html=req.text
html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')
bf=BeautifulSoup(html,"html.parser")
texts=bf.find('div',class_='articles')
texts_div=texts.find_all('div',class_='wz_content')
for item in texts_div:
item_name=item.find('a').text
item_href=item.find('a')['href']
item_refer2=item.find('span',class_='count').text
print('{} {} {}\n'.format(item_name,item_href,item_refer2))
print(n)
python爬取中国知网部分论文信息的更多相关文章
- Python爬取中国知网文献、参考文献、引证文献
		
前两天老师派了个活,让下载知网上根据高级搜索得到的来源文献的参考文献及引证文献数据,网上找了一些相关博客,感觉都不太合适,因此特此记录,希望对需要的人有帮助. 切入正题,先说这次需求,高级搜索,根据中 ...
 - Python爬取中国天气网
		
Python爬取中国天气网 基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...
 - Python爬取中国票房网所有电影片名和演员名字,爬取齐鲁网大陆所有电视剧名称
		
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...
 - python实战项目 — 爬取中国票房网年度电影信息并保存在csv
		
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
 - 初识python 之 爬虫:爬取中国天气网数据
		
用到模块: 获取网页并解析:import requests,html5lib from bs4 import BeautifulSoup 使用pyecharts的Bar可视化工具"绘制图表& ...
 - python爬取中国大学排名
		
教程来自:[Python网络爬虫与信息提取].MOOC. 北京理工大学 目标:爬取最好大学网前50名大学 代码如下: import requests from bs4 import Beautiful ...
 - python爬取天气后报网
		
前言 大二下学期的大数据技术导论课上由于需要获取数据进行分析,我决定学习python爬虫来获取数据.由于对于数据需求量相对较大,我最终选择爬取 天气后报网,该网站可以查询到全国各地多年的数据,而且相对 ...
 - (python爬取小故事网并写入mysql)
		
前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手 ...
 - steam夏日促销悄然开始,用Python爬取排行榜上的游戏打折信息
		
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
 
随机推荐
- 音视频入门-12-手动生成一张PNG图片
			
* 音视频入门文章目录 * 预热 上一篇 [PNG文件格式详解]详细介绍了 PNG 文件的格式. PNG 图像格式文件由一个 8 字节的 PNG 文件署名域和 3 个以上的后续数据块(IHDR.IDA ...
 - 推荐一款现代化的脚手架项目《hope-boot》
			
简介: > 一款现代化的脚手架项目.企业开发?接外包?赚外快?还是学习?这都能满足你,居家必备,值得拥有
 - 继承+派生+分类+钻石继承(day20)
			
目录 昨日内容 面对对象编程 类 定义类时发生的事情 调用类时发生的事情 init 对象 对象查找类的属性的顺序 对象的绑定方法 python中万物皆对象 今日内容 继承 什么是继承 为什么要继承 如 ...
 - vue 2.0 点击添加class,同时删除同级class
			
<template> <div class="n-header"> <ul class="title-wrapper"> & ...
 - bit(比特)与Byte(字节)的区别与关系
			
1.bit:位 (小写b) 也称比特 是英文 binary digit的缩写 二进制数系统中,每个0或1就是一个位(bit)位是数据存储(计算机中信息)的最小单位计算机中的CPU位数指的是CPU一次能 ...
 - Java线程池ThreadPoolExecutor初略探索
			
在操作系统中,线程是一个非常重要的资源,频繁创建和销毁大量线程会大大降低系统性能.Java线程池原理类似于数据库连接池,目的就是帮助我们实现线程复用,减少频繁创建和销毁线程 ThreadPoolExe ...
 - Docker安装ElasticSearch 以及使用LogStash实现索引库和数据库同步
			
1:下载 ElasticSearch 镜像 docker pull docker.io/elasticsearch:5.6.8 2:创建 ElasticSearch 容器: 注意:5.0默认分配jvm ...
 - 关于Ubuntu10.04磁盘空间不足的问题
			
最近由于项目问题,需要自己写驱动,但是驱动知识太少,开始下了个内核自己玩玩,没想到的是内核下好了,Ubuntu待机后却登录不了了,重启了好几次也不行,而且颜色是蓝色,右上角还提示:Install pr ...
 - CSPS Oct目标
			
超过skyh 删了一些sb话,不过目标不会变的
 - CF600E Lomsat gelral——线段树合并/dsu on tree
			
题目描述 一棵树有$n$个结点,每个结点都是一种颜色,每个颜色有一个编号,求树中每个子树的最多的颜色编号的和. 这个题意是真的窒息...具体意思是说,每个节点有一个颜色,你要找的是每个子树中颜色的众数 ...