python_爬百度百科词条

如何爬取？
　　明确目标：爬取百度百科，定初始百度词条：python，初始URL：http://baike.baidu.com/item/Python，爬取数据量为1000条，值爬取简介，标题，和简介中url
　　怎么爬： 利用谷歌开发工具，分析html结构，分析查询层次与方法
　　怎么写： 面向过程和面向对象两个方向
环境声明：
　　python 3.50 
　　requests 库
　　beautifulsoup 库
使用面向过程的方式爬取：

#!/usr/bin/python3

import re

import bs4

import requests

from bs4 import BeautifulSoup

# 从百度百科爬取数据为三个字段，标题，简介，关联URL

# 给定初始百度词条：python，初始URL：http://baike.baidu.com/item/Python，爬取数据量为1000条

# 那就先有4个模块，URL管理器，下载器，解析器，数据展示

# 通过requests、BeautifulSoup两个库，实现下载器和解析器,通过两个集合数据类型，实现URL管理器

# URL拼接 起始url ：http://baike.baidu.com

# new_urls = set()

# old_urls = set()

# 已经在old_urls不再爬取，不在添加到new_urls中并从其中返回一个URL

def url_manager(links):

    if links is not None:

        # 把重复的url去掉

        links = links.difference(old_urls)

        if links is not None:

            for i in links:

                new_urls.add(i)

def download_html(url):

    headers = {

              # 'Host': 'static.tieba.baidu.com',

              'Referer': 'http://baike.baidu.com/item/Python',

              'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}

    # 返回下载页面

    try:

        response = requests.get(url, headers=headers)

        response.raise_for_status()

        response.encoding = response.apparent_encoding

        return response.text

    except:

        return None

    pass

def analysis(page_html, one_url):

    # 返回标题，简介，关联URL

    # temp = title + introduction + page_url

    # links = 关联URL

    links = []

    temp_url = 'http://baike.baidu.com'

    soup = BeautifulSoup(page_html, 'html.parser')

    # 获取标题

    title = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1').get_text()

    # print(title)

    # 获取简介

    introduction = soup.find('div', class_="lemma-summary").get_text().replace('\nPython[1]\xa0\n（英国发音：/ˈpaɪθən/ 美国发音：/ˈpaɪθɑːn/）,', '')

    # print(introduction)

    # 获得关联URL，只爬取简介中关联的URL

    links_labl = soup.find('div', class_="lemma-summary").find_all('a', href=re.compile("^/item/"))

    # links_text = soup.find('div', class_="lemma-summary").find_all('a', href=re.compile("^/item/"))

    # for i in links_text:

    #     print(i.get_text())

    for link in links_labl:

        new_url = temp_url + link['href']

        links.append(new_url)

    temp = one_url + ' : ' + title + '_' + introduction

    message.append(temp)

    if links is not None:

        links = set(links)

    else:

        links = None

    return links

def out_data():

    for i in message:

        print(i)

    pass

if __name__ == '__main__':

    new_urls = set()

    old_urls = set()

    message = []

    start_url = 'http://baike.baidu.com/item/Python'

    # 起始页

    page_html = download_html(start_url)

    links = analysis(page_html, start_url)

    url_manager(links)

    # 起始页简介中URL

    for i in range(100):

        url = new_urls.pop()

        try:

            page_html = download_html(url)

            if not page_html:

                continue

            urls = analysis(page_html, url)

            url_manager(urls)

        except:

            print('爬取失败')

        old_urls.add(url)

    # 依次打印爬取到的值

    out_data()

python_爬百度百科词条的更多相关文章

Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
python 使用selenium模块实现自动搜索百度百科词条（模拟人工搜索）
目标:模拟人工搜索百度百科词条,爬取相关信息,自动删除上一个关键词,输入新关键词,继续搜索,直到循环结束. 代码: from selenium import webdriver from seleni ...
python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
莫烦python课程里面的bug修复;课程爬虫小练习爬百度百科
我今天弄了一下午修改这个代码,最后还是弄好了.原因是正则表达式的筛选不够准确,有时候是会带http:baidu这些东西的.所以需要一个正则表达式的断言,然后还有一点是如果his里面只有一个元素就不要再 ...
Python3爬取百度百科（配合PHP）
用PHP写了一个网页,可以获取百度百科词条.源代码已分享至github:https://github.com/1049451037/xiaobaike/tree/master 那么通过Python来爬 ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...

随机推荐

Mac下jenkins用户权限配置错误，导致登录时提示：没有Overall/read权限
由于初次接触jenkins,于是在搭建好jenkins以后,想要对用户进行管理,于是乎开始在系统管理->configure Global Security里设置用户的权限. 在启用安全-> ...
Linux之网卡发包、接包 error 、droped 情况
1. 查看各个网卡发送.接受包情况oracle@hbdw2:/oratmp2$netstat -niKernel Interface tableIface MTU Met RX-OK RX-ERR R ...
jetty和tomcat的区别
jetty:是一个开源的servlet容器,基于java的web容器,例如给jsp和servlet提供运行环境,jetty是使用java编写的,他的api是一组以jar包的形式发布,开发人员可以将je ...
Linux 系统下在线安装 Tomcat
在linux下部署java开发的web应用,一般采用Tomact+jre环境(可不需要apache),在RHEL和CentOS下,可以采用yum在线自动安装方式安装,具体操作如下: 1.基础环境安装配 ...
Machine Learning - week 4 - 编程练习
= X' * (h - y) LrCostFunction 与上一周的有什么不同? 与 week3 的 costFunctionReg 是一样的.Week3 中参考答案没有排除 theta 第一行,但 ...
1c19b35b005744d55261682b361804fa 如何破解经过 MD5 算法处理的信息？
Md5密文破解(解密)可以说是网络攻击中的一个必不可少的环节,是工具中的一个重要"辅助工具".md5解密主要用于网络攻击,在对网站等进行入侵过程,有可能获得管理员或者其他用户的账号 ...
C/C++中__builtin_popcount()的使用及原理
__builtin_popcount()用于计算一个 32 位无符号整数有多少个位为1 Counting out the bits 可以很容易的判断一个数是不是2的幂次:清除最低的1位(见上面 ...
HDU6166-Senior Pan-Dijkstra迪杰斯特拉算法(添加超源点,超汇点)+二进制划分集合-2017多校Team09
学长好久之前讲的,本来好久好久之前就要写题解的,一直都没写,懒死_(:з」∠)_ Senior Pan Time Limit: 12000/6000 MS (Java/Others) Memor ...
TypeScript笔记 4--变量声明
在上一篇:基础变量中我们在声明变量时使用了关键字let,这和JS中的var有点类似. 语法基本语法:let 变量名:类型.当然类型不是必须的. let x:number; let y:string ...
Angular(2+) 国际化方案（ngx-translate）
本文只针对ngx-translate/core 6.x版本,如果你使用的是5.x或者更低的版本,请参照以下链接. https://github.com/ngx-translate/core/blob/ ...

python_爬百度百科词条

python_爬百度百科词条的更多相关文章

随机推荐

热门专题