从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库

从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库

Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库

参考文档：

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

# 安装 beautifulsoup4

(pytools) D:\python\pytools>pip install beautifulsoup4

安装mysql的模块

pymysql的地址：https://github.com/PyMySQL/PyMySQL

爬取维基百科词条

# coding=utf-8

from bs4 import BeautifulSoup

import requests

import re

def spider_wike():

    url = "https://en.wikipedia.org/wiki/Main_Page"

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}

    resp = requests.get(url, headers = headers)

    # 将响应数据转换为utf-8编码

    resp.encoding = 'utf-8'

    html_doc = resp.text

    soup = BeautifulSoup(html_doc, "html.parser")

    # 找到以wiki开头的a标签的href属性

    list_urls = soup.find_all("a", href=re.compile("^/wiki/"))

    # print(list_urls)

    # 输出所有的词条对应的名称和URL

    for url in list_urls:

        # 过滤掉.jpg 或.JPG 结尾的URL

        if not re.search(r"\.(jpg|JPG)", url["href"]):

            # 词条加网址

            # sting只能获取一个， get_text() 可以获取标签下所有的内容

            print(url.get_text(), " <------>", "https://en.wikipedia.org" + url["href"])

if __name__ == '__main__':

    spider_wike()

# 将维基百科词条链接存入数据库

# coding=utf-8

from bs4 import BeautifulSoup

import requests

import re

import pymysql.cursors

'''

    # 环境准备

    pip install pymysql

    create database wikiurl charset=utf8mb4;

    use wikiurl;

    create table urls (id int primary key auto_increment,urlname varchar(255),urlhref varchar(1000));

'''

url = "https://en.wikipedia.org/wiki/Main_Page"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}

resp = requests.get(url, headers = headers)

# 将响应数据转换为utf-8编码

resp.encoding = 'utf-8'

html_doc = resp.text

soup = BeautifulSoup(html_doc, "html.parser")

# 找到以wiki开头的a标签的href属性

list_urls = soup.find_all("a", href=re.compile("^/wiki/"))

# print(list_urls)

# 输出所有的词条对应的名称和URL

for url in list_urls:

    # 过滤掉.jpg 或.JPG 结尾的URL

    if not re.search(r"\.(jpg|JPG)", url["href"]):

        # 词条加网址

        # sting只能获取一个， get_text() 可以获取标签下所有的内容

        print(url.get_text(), " <------>", "https://en.wikipedia.org" + url["href"])

        connection = pymysql.connect(host='localhost',

                                     user='root',

                                     password='root',

                                     db='wikiurl',

                                     charset='utf8mb4')

        try:

            # 获取回话指针

            with connection.cursor() as cursor:

                # 创建sql语句

                sql = "insert into `urls`(`urlname`,`urlhref`) values(%s,%s)"

                # 执行sql语句

                cursor.execute(sql,(url.get_text(), "https://en.wikipedia.org" + url["href"]))

                # 提交数据

                connection.commit()

        finally:

            connection.close()

# 从数据库读取词条信息

# coding=utf-8

import pymysql

def get_conn():

    connection = pymysql.connect(host='localhost',

                                 user='root',

                                 password='root',

                                 db='wikiurl',

                                 charset='utf8mb4')

    return connection

def get_wiki_data():

    conn = get_conn()

    sql = "select `urlname`,`urlhref` from urls"

    cur = conn.cursor()

    # 获取总记录条数

    count = cur.execute(sql)

    print(count)

    # 获取所有数据

    # urllists = cur.fetchall()

    # 获取指定条目数据

    # urllists = cur.fetchmany(3)

    #

    # for url in urllists:

    #     print(url[0],'<--->',url[1])

    # 获取一条数据

    link = cur.fetchone()

    print(link)

    # 关闭数据库连接

    conn.close()

def get_data():

    conn = get_conn()

    try:

        with conn.cursor() as cur:

            sql = "select `urlname`,`urlhref` from urls where `id` is not NULL"

            count = cur.execute(sql)

            print(count)

            # 查询所有数据

            # data = cur.fetchall()

            # print(data)

            # 查询指定条目数据

            result = cur.fetchmany(size = 5)

            print(result)

    finally:

        conn.close()

if __name__ == '__main__':

    # get_wiki_data()

    get_data()

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库的更多相关文章

从0开始学爬虫9之requests库的学习之环境搭建
从0开始学爬虫9之requests库的学习之环境搭建 Requests库的环境搭建环境:python2.7.9版本参考文档:http://2.python-requests.org/zh_CN/l ...
从0开始学爬虫4之requests基础知识
从0开始学爬虫4之requests基础知识安装requestspip install requests get请求:可以用浏览器直接访问请求可以携带参数,但是又长度限制请求参数直接放在URL后面 P ...
<爬虫>利用BeautifulSoup爬取百度百科虚拟人物资料存入Mysql数据库
网页情况: 代码: import requests from requests.exceptions import RequestException from bs4 import Beautiful ...
NodeJs简单七行爬虫--爬取自己Qzone的说说并存入数据库
没有那么难的,嘿嘿,说起来呢其实挺简单的,或者不能叫爬虫,只需要将自己的数据加载到程序里再进行解析就可以了,如果说你的Qzone是向所有人开放的,那么就有一个JSONP的接口,这么说来就简单了,也就不 ...
python+xpath+requests爬取维基百科历史上的今天
import requests import urllib.parse import datetime from lxml import etree fhout = open("result ...
python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...
python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...

随机推荐

php5.6 的mcrypt_encrypt 函数可以和5.5.9的行为一样
php5.5.9 -----------------------$output = "test php !!" $key = "abcd123456789"; ...
《少年先疯队》第八次团队作业：Alpha冲刺第四天
前言第四天冲刺会议时间:2019.6.17 地点:宿舍 4.1 今日完成任务情况以及遇到的问题. 4.1.1今日完成任务情况姚玉婷:管理员功能模块中,收费管理功能的实现. ...
《The One!团队》：BETA Scrum metting3
项目内容作业所属课程所属课程作业要求作业要求团队名称 < The One !> 作业学习目标 (1)掌握软件黑盒测试技术:(2)学会编制软件项目总结PPT.项目验收报告:(3) ...
keras模块学习之model层【重点学习】
本笔记由博客园-圆柱模板博主整理笔记发布,转载需注明,谢谢合作! model层是keras模块最重要的一个层,所以单独做下笔记,这块比较难理解,本博主自己还在学习这块,还在迷糊中. model的方法 ...
UVALive 5099 Nubulsa Expo（全局最小割）
题面 vjudge传送门题解论文题见2016绍兴一中王文涛国家队候选队员论文<浅谈无向图最小割问题的一些算法及应用>4节全局最小割板题 CODE 暴力O(n3)O(n^3)O(n ...
go设置使用多少个cpu
package main import ( "fmt" "runtime" ) func main() { n := runtime.NumCPU() fmt. ...
Oracle 异步IO 优缺点
一.Oracle在Linux下使用异步IO配置最近在测试Oracle的时候,很想测试下使用异步IO的性能.但是异步IO是需要专门配置的,否则的话,容易遇到很著名的“ORA-01578: ORACLE ...
数据库访问优化之四：减少数据库服务器CPU运算
1.使用绑定变量绑定变量是指SQL中对变化的值采用变量参数的形式提交,而不是在SQL中直接拼写对应的值. 非绑定变量写法:Select * from employee where id=123456 ...
1-STM32+W5500+GPRS物联网开发基础篇-工控板简介
最近这些日子都在忙活STM+W5500+GPRS的板子,所以前面的那块板子的教程耽搁了些时间. 这次的板子和上一版相比更贴近了使用,是因为有朋友督促我要做一块直接可以在工厂使用的板子,所以设计了这一块 ...
UOJ#221. 【NOI2016】循环之美数论,杜教筛
原文链接www.cnblogs.com/zhouzhendong/p/UOJ221.html 题解首先把题目转化为求 \[\sum_{x=1}^n \sum_{y=1}^m [\gcd(x,y) = ...

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库的更多相关文章

随机推荐

热门专题