python简单爬虫用beautifulsoup爬取百度百科词条

目标：爬取“湖南大学”百科词条并处理数据

需要获取的数据：

源代码：

<div class="basic-info cmn-clearfix">

<dl class="basicInfo-block basicInfo-left">

<dt class="basicInfo-item name">中文名</dt>

<dd class="basicInfo-item value">

湖南大学

</dd>

<dt class="basicInfo-item name">外文名</dt>

<dd class="basicInfo-item value">

Hunan University

</dd>

<dt class="basicInfo-item name">简&nbsp;&nbsp;&nbsp;&nbsp;称</dt>

<dd class="basicInfo-item value">

<a target="_blank" href="/item/%E6%B9%96%E5%A4%A7/406102" data-lemmaid="406102">湖大</a>·<a target="_blank" href="/item/HNU">HNU</a>

</dd>

<dt class="basicInfo-item name">创办时间</dt>

<dd class="basicInfo-item value">

1903年

</dd>

<dt class="basicInfo-item name">类&nbsp;&nbsp;&nbsp;&nbsp;别</dt>

<dd class="basicInfo-item value">

公立大学

</dd>

<dt class="basicInfo-item name">类&nbsp;&nbsp;&nbsp;&nbsp;型</dt>

<dd class="basicInfo-item value">

综合类<a target="_blank" href="/item/%E7%A0%94%E7%A9%B6%E5%9E%8B%E5%A4%A7%E5%AD%A6">研究型大学</a>

</dd>

.......

<dd class="basicInfo-item value">

<a target="_blank" href="/item/%E9%92%9F%E5%BF%97%E5%8D%8E">钟志华</a>、<a target="_blank" href="/item/%E8%B0%AD%E8%94%9A%E6%B3%93">谭蔚泓</a>、<a target="_blank" href="/item/%E4%BD%95%E4%BA%BA%E5%8F%AF">何人可</a>、<a target="_blank" href="/item/%E7%86%8A%E6%99%93%E9%B8%BD">熊晓鸽</a>、<a target="_blank" href="/item/%E8%92%8B%E8%B6%85%E8%89%AF">蒋超良</a>、<a target="_blank" href="/item/%E9%82%93%E9%A3%9E/1525913" data-lemmaid="1525913">邓飞</a>、<a target="_blank" href="/item/%E8%B0%AD%E8%80%95">谭耕</a>等

</dd>

</dl></div>

库：由于百度有反爬机制，所以使用urllib.request库获取网页；BeautifulSoup

代码：

from bs4 import BeautifulSoup

import urllib.request

url = "https://baike.baidu.com/item/%E6%B9%96%E5%8D%97%E5%A4%A7%E5%AD%A6/179157?fr=aladdin"

response = urllib.request.urlopen(url)  # 访问并打开url

html = response.read()  # 创建html对象读取页面源代码

soup = BeautifulSoup(html, 'html.parser')  # 创建soup对象，获取html代码

title = soup.find_all('dt', class_="basicInfo-item name")  # 找到所有dt标签，返回一个列表

node = soup.find_all('dd', class_="basicInfo-item value")  # 找到所有dd标签，返回一个列表

allunivinfo = []

titlelist = []

infolist = []

for i in title:  # 将所有dt标签内容存入列表

    title = i.get_text()

    titlelist.append(title)

for i in node:  # 将所有dd标签内容存入列表

    info = i.get_text()

    infolist.append(info)

for i, j in zip(titlelist, infolist):  # 多遍历循环，zip()接受一系列可迭代对象作为参数，将对象中对应的元素打包成一个个tuple（元组），然后返回由这些tuples组成的list（列表）。

    info = ''.join((str(i)+':'+str(j)).split())

    allunivinfo.append(info)

print(allunivinfo)

运行结果：

python简单爬虫用beautifulsoup爬取百度百科词条的更多相关文章

<爬虫>利用BeautifulSoup爬取百度百科虚拟人物资料存入Mysql数据库
网页情况: 代码: import requests from requests.exceptions import RequestException from bs4 import Beautiful ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖 ...
Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介网站爬虫由浅入深:慢慢来分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...

随机推荐

Android5.0新特性之——控件移动动画（初级）
最近开发,UI大牛们设计了好多很炫酷吊炸天的动画,不由得重新学习了一下5.0的ObjectAnimator动画. ObjectAnimator动画的原理,通过反射控件的setXXX方法,改变控件的实际 ...
Gradle安装和在Eclipse中的使用
Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建开源工具.它使用一种基于Groovy的特定领域语言(DSL)来声明项目设置,抛弃了基于XML的各种繁琐配置. 1 ...
SPOJ 10570 LONGCS - Longest Common Substring
思路和SPOJ 1812 LCS2 - Longest Common Substring II一个思路,改成多组数据就有三倍经验了代码 #include <cstdio> #inclu ...
后台启动mysql
https://blog.csdn.net/codemacket/article/details/77719323
【Git】Git使用记录: remove *.lock eg: index.lock/head.lock
问题 Another git process seems to be running in this repository, e.g. an editor opened by 'git commit' ...
Maven下载与环境变量配置
前言: Maven 是一个基于 Java 的工具,所以要做的第一件事情就是安装 JDK.如果还未安装 JDK,可以参考Win10下JDK下载与环境变量配置. 项目要求 JDK Maven 3.3+ ...
Visual Studio 2017 注册码
Visual Studio 2017(VS2017) 企业版 Enterprise 注册码:NJVYC-BMHX2-G77MM-4XJMR-6Q8QF Visual Studio 2017(VS201 ...
React---简单实现表单点击提交插入、删除操作
import React,{Component,Fragment} from 'react' class App extends Component { constructor(){ super() ...
git checkout branch
git fetch origin feature/banch1:feature/banch1 git checkout feature/banch1 git branch -u origin/feat ...
cowboy源码分析（一）
前段时间导读了ranch的源码,具体见ranch 源码分析(一), 现在整理了下ranch框架下经典应用cowboy. 源码地方:https://github.com/ninenines/cowboy ...

python简单爬虫 用beautifulsoup爬取百度百科词条

python简单爬虫 用beautifulsoup爬取百度百科词条的更多相关文章

随机推荐

热门专题

python简单爬虫用beautifulsoup爬取百度百科词条

python简单爬虫用beautifulsoup爬取百度百科词条的更多相关文章