Python——爬取百度百科关键词1000个相关网页

Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介

网站爬虫由浅入深：慢慢来

分析：

链接的URL分析：

数据格式：

爬虫基本架构模型：

本爬虫架构：

源代码：

# coding:utf8

# author:Jery

# datetime:2019/4/12 19:22

# software:PyCharm

# function:爬取百度百科关键词python1000个相关网页——标题和简介

from urllib.request import urlopen

import re

from bs4 import BeautifulSoup

class SpiderMain(object):

    def __init__(self):

        self.urls = UrlManager()

        self.downloader = HtmlDownloader()

        self.parser = HtmlParser()

        self.outputer = DataOutputer()

    # 主爬虫，调度四个类的方法执行爬虫

    def crawl(self, root_url):

        count = 1

        self.urls.add_new_url(root_url)

        while self.urls.has_new_url():

            try:

                new_url = self.urls.get_new_url()

                print("crawl 第{} ：{} ".format(count, new_url))

                html_content = self.downloader.download(new_url)

                new_urls, new_data = self.parser.parse(new_url, html_content)

                # 新网页的url及数据

                self.urls.add_new_urls(new_urls)

                self.outputer.collect_data(new_data)

                if count == 1000:

                    break

                count += 1

            except:

                print(" crawl failed! ")

        self.outputer.output_html()

# URL管理器，实现URL的增加与删除

class UrlManager:

    def __init__(self):

        self.new_urls = set()

        self.old_urls = set()

    def has_new_url(self):

        return len(self.new_urls) != 0

    def get_new_url(self):

        new_url = self.new_urls.pop()

        self.old_urls.add(new_url)

        return new_url

    def add_new_url(self, url):

        if url is None:

            return

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    def add_new_urls(self, urls):

        if urls is None or len(urls) == 0:

            return

        for url in urls:

            self.new_urls.add(url)

# 下载网页源代码

class HtmlDownloader:

    def download(self, url):

        if url in None:

            return

        response = urlopen(url)

        if response.getcode() != 200:

            return

        return response.read()

# 下载网页所需内容

class HtmlParser:

    def parse(self, page_url, html_content):

        if page_url is None or html_content is None:

            return

        soup = BeautifulSoup(html_content, 'lxml', from_encoding='utf-8')

        new_urls = self._get_new_urls(page_url, soup)

        new_data = self._get_new_data(page_url, soup)

        return new_urls, new_data

    def _get_new_urls(self, page_url, soup):

        new_urls = set()

        links = soup.find_all('a', href=re.compile(r'/view/.*'))

        for link in links:

            new_url = "https://baike.baidu.com" + link['href']

            new_urls.add(new_url)

        return new_urls

    def _get_new_data(self, page_url, soup):

        res_data = {}

        # <dl class="lemmaWgt-lemmaTitle lemmaWgt-lemmaTitle-">

        # <dd class="lemmaWgt-lemmaTitle-title">

        # <h1>Python</h1>

        title_node = soup.find("dl", {"class": "lemmaWgt-lemmaTitle lemmaWgt-lemmaTitle-"}).dd.h1

        res_data['title'] = title_node.get_text()

        summary_node = soup.find('div', {"class": "lemma-summary"})

        res_data['summary'] = summary_node.get_text()

        return res_data

# 将所搜集数据输出至html的表格中

class DataOutputer:

    def __init__(self):

        self.datas = []

    def collect_data(self, data):

        if data is None:

            return

        self.datas.append(data)

    def output_html(self):

        output = open('output.html', 'w')

        output.write("<html>")

        output.write("<body>")

        output.write("<table>")

        for data in self.datas:

            output.write("<tr>")

            output.write("<td>{}</td>".format(data['url']))

            output.write("<td>{}</td>".format(data['title'].encode('utf-8')))

            output.write("<td>{}</td>".format(data['summary'].encode('utf-8')))

            output.write("</tr>")

        output.write("</table>")

        output.write("<body>")

        output.write("</html>")

        output.close()

if __name__ == '__main__':

    root_url = "https://baike.baidu.com/item/Python/407313"

    obj_spider = SpiderMain()

    obj_spider.crawl(root_url)

Python——爬取百度百科关键词1000个相关网页的更多相关文章

爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
Python3爬取百度百科（配合PHP）
用PHP写了一个网页,可以获取百度百科词条.源代码已分享至github:https://github.com/1049451037/xiaobaike/tree/master 那么通过Python来爬 ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
python 爬取百度url
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-29 18:38:23 # @Author : EnderZhou (z ...
用Python爬取了考研吧1000条帖子，原来他们都在讨论这些！
写在前面考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子, ...
假期学习【十一】Python爬取百度词条写入csv格式 python 2020.2.10
今天主要完成了根据爬取的txt文档,从百度分类从信息科学类爬取百度词条信息,并写入CSV格式文件. txt格式文件如图: 为自己爬取内容分词后的结果. 代码如下: import requests fr ...

随机推荐

LWIP网络接口管理
LAN8720+RJ45+MAC(STM32F4自带的)构成了网络接口层.
Oracle——分页查询
查询员工表中,工资排名在10-20之间的员工信息. select * from( select rownum rn ,employee_id,salary from ( select employee ...
python学习的一点点心得
好久没发博客了,不解释....接下来写一点自己最近学习python的一点心得. 想要学习python的初衷,是看<软件测试技术大全>一书时,了解到像perl.python.ruby等脚本类 ...
error: failed to push some refs to 'https://git.oschina.net/bluede/TuShuGuanLi.g it'
出现了这样的错,可以强制提交 git push -u origin master -f
Prolific PL2303 usb 转串口Win8 Win8.1驱动
买了根USB转RS232串口的线,Pl2303芯片的.卖家和官方都称不支持Win8,但鄙人不信在Win7上能用在Win8/8.1就用不起来. 官方最新版的v1.9.0的驱动描述说不支持Win 8/8. ...
jira项目管理平台搭建
参考文档:http://www.cnblogs.com/ilanni/p/6200875.html 一.环境准备 jira7.2的运行是需要依赖java环境的,也就是说需要安装jdk并且要是1.8 ...
WinAPI 字符及字符串函数(10): lstrcpy - 复制字符串
unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, For ...
.net EventHandler 事件处理
通常定义事件都是通过自定义委托的方式来实现, 今天使用EventHandler 委托来定义事件: public class NewMailEventArgs : EventArgs { priv ...
docker-compose 命令
docker-compose初试及命令基础以一个简单的lnmp.yaml的配置文件进行讲解docker-compose命令的基础讲解,熟练掌握命令 [root@docker lnmp]# cat l ...
dubbo 安装部署
dubbo 安装部署 1 安装zookeeper 2 安装dubbo 1 下载源码 https://github.com/alibaba/dubbo 2 编译 mvn clean packa ...

Python——爬取百度百科关键词1000个相关网页

Python——爬取百度百科关键词1000个相关网页的更多相关文章

随机推荐

热门专题