前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：崩坏的芝麻

由于实验室需要一些语料做研究，语料要求是知网上的论文摘要，但是目前最新版的知网爬起来有些麻烦，所以我利用的是知网的另外一个搜索接口

比如下面这个网页：
http://search.cnki.net/Search.aspx?q=肉制品

搜索出来的结果和知网上的结果几乎一样，另外以后面试找Python工作，项目经验展示是核心，如果你缺项目练习，去小编的Python交流.裙：一久武其而而流一思（数字的谐音）转换下可以找到了，里面很多新教程项目

在这个基础上，我简单看了些网页的结构，很容易就能写出爬取得代码（是最基础的，相当不完善，增加其他功能可自行增加）

网页的结构还是很清晰的

摘要信息也很清晰

我使用的是 pymysql 连接的数据库，效率也还可以
下面直接贴代码：

# -*- coding: utf-8 -*-

import time

import re

import random

import requests

from bs4 import BeautifulSoup

import pymysql

connection = pymysql.connect(host='',

                             user='',

                             password='',

                             db='',

                             port=3306,

                             charset='utf8')  # 注意是utf8不是utf-8

# 获取游标

cursor = connection.cursor()

#url = 'http://epub.cnki.net/grid2008/brief/detailj.aspx?filename=RLGY201806014&dbname=CJFDLAST2018'

#这个headers信息必须包含，否则该网站会将你的请求重定向到其它页面

headers = {

    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

    'Accept-Encoding':'gzip, deflate, sdch',

    'Accept-Language':'zh-CN,zh;q=0.8',

    'Connection':'keep-alive',

    'Host':'www.cnki.net',

    'Referer':'http://search.cnki.net/search.aspx?q=%E4%BD%9C%E8%80%85%E5%8D%95%E4%BD%8D%3a%E6%AD%A6%E6%B1%89%E5%A4%A7%E5%AD%A6&rank=relevant&cluster=zyk&val=CDFDTOTAL',

    'Upgrade-Insecure-Requests':'1',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

}

headers1 = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'

    }

def get_url_list(start_url):

    depth = 20

    url_list = []

    for i in range(depth):

        try:

            url = start_url + "&p=" + str(i * 15)

            search = requests.get(url.replace('\n', ''), headers=headers1)

            soup = BeautifulSoup(search.text, 'html.parser')

            for art in soup.find_all('div', class_='wz_tab'):

                print(art.find('a')['href'])

                if art.find('a')['href'] not in url_list:

                    url_list.append(art.find('a')['href'])

            print("爬取第" + str(i) + "页成功！")

            time.sleep(random.randint(1, 3))

        except:

            print("爬取第" + str(i) + "页失败！")

    return url_list

def get_data(url_list, wordType):

    try:

        # 通过url_results.txt读取链接进行访问

        for url in url_list:

            i = 1;

            if url == pymysql.NULL or url == '':

                continue

            try:

                html = requests.get(url.replace('\n', ''), headers=headers)

                soup = BeautifulSoup(html.text, 'html.parser')

            except:

                print("获取网页失败")

            try:

                print(url)

                if soup is None:

                    continue

                # 获取标题

                title = soup.find('title').get_text().split('-')[0]

                # 获取作者

                author = ''

                for a in soup.find('div', class_='summary pad10').find('p').find_all('a', class_='KnowledgeNetLink'):

                    author += (a.get_text() + ' ')

                # 获取摘要

                abstract = soup.find('span', id='ChDivSummary').get_text()

                # 获取关键词，存在没有关键词的情况

            except:

                print("部分获取失败")

                pass

            try:

                key = ''

                for k in soup.find('span', id='ChDivKeyWord').find_all('a', class_='KnowledgeNetLink'):

                    key += (k.get_text() + ' ')

            except:

                pass

            print("第" + str(i) + "个url")

            print("【Title】：" + title)

            print("【author】：" + author)

            print("【abstract】：" + abstract)

            print("【key】：" + key)

            # 执行SQL语句

            cursor.execute('INSERT INTO cnki VALUES (NULL, %s, %s, %s, %s, %s)', (wordType, title, author, abstract, key))

            # 提交到数据库执行

            connection.commit()

            print()

        print("爬取完毕")

    finally:

        print()

if __name__ == '__main__':

    try:

        for wordType in {"大肠杆菌", "菌群总落", "胭脂红", "日落黄"}:

            wordType = "肉+" + wordType

            start_url = "http://search.cnki.net/search.aspx?q=%s&rank=relevant&cluster=zyk&val=" % wordType

            url_list = get_url_list(start_url)

            print("开始爬取")

            get_data(url_list, wordType)

            print("一种类型爬取完毕")

        print("全部爬取完毕")

    finally:

        connection.close()

在这里的关键词我简单的选了几个，作为实验，如果爬取的很多，可以写在txt文件里，直接读取就可以，非常方便。

Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】的更多相关文章

芝麻HTTP：Python爬虫实战之抓取爱问知识人问题并保存至数据库
本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表达式的简 ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...

随机推荐

web开发基本概念
一.什么是静态页面,什么是动态页面? 答:静态页面是不需要网络请求就可以看到的页面,保存在本地. 动态页面是需要网络请求才可以看到的页面,保存在服务器. 二.网页的运行环境? 答:浏览器客户端三. ...
【实战】如何通过html+css+mysql+php来快速的制作动态网页（以制作一个博客网站为列）
一.开发环境的搭建 (1)apache+php+mysql环境搭建因为要用apache来做服务器,mysql作为数据库来存储数据,php来写代码以此实现网页与数据库的交互数据,所以需要下载上述软件, ...
一个简单的C#爬虫程序
这篇这篇文章主要是展示了一个C#语言如何抓取网站中的图片.实现原理就是基于http请求.C#给我们提供了HttpWebRequest和WebClient两个对象,方便发送请求获取数据,下面看如何实 1 ...
【python测试开发栈】python基础语法大盘点
周边很多同学在用python,但是偶尔会发现有人对python的基础语法还不是特别了解,所以帮大家梳理了python的基础语法(文中的介绍以python3为例).如果你已然是python大牛,可以跳过 ...
linux文件时间
Linux 查看文件修改时间(精确到秒)(简单) ls --full-time 查看文件时间戳命令:stat test.txt linux 下查看文件修改时间等(详细) 查看文件时间戳命令:stat ...
Prometheus+Altermanager钉钉报警
Prometheus+Altermanager钉钉报警一.添加钉钉机器人参考钉钉官方文档:https://ding-doc.dingtalk.com/doc#/serverapi2/qf2nxq ...
drf序列化组件之视图家族
一.视图家族的分类 1.导入分类 from rest_framewok import views, generics, mixins, viewsets views:视图类两大视图类:APIVi ...
flex盒子布局
看过很多对于弹性盒子flex的简介,但还是觉得阮一峰大神的解析和张鑫旭大神(旧版flex)的解析比较容易理解,下面,我以自己的理解来叙述关于flex弹性布局! 1.概念(容器和项目) 在flex中,有 ...
vue—自定义指令
今日分享—自定义指令需要学习的点: modifiers属性的具体实例就是v-on:click.stop=”handClick” 一样,为指令添加一个修饰符. 全局指令:新建一个newDir.js i ...
🔥《手把手教你》系列基础篇之4-python+ selenium自动化测试-xpath使用（详细教程）
1. 简介俗话说:磨刀不误砍柴工,因此在我们要开始写自动化脚本之前,我们先来学习和了解几个基本概念,在完全掌握了这几个概念之后,有助于我们快速上手,如何去编写自动化测试脚本. 元素,在这个教程系列, ...

Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】

前言

Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】的更多相关文章

随机推荐

热门专题