python简单爬虫 用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据
需要获取的数据:

源代码:
<div class="basic-info cmn-clearfix">
<dl class="basicInfo-block basicInfo-left">
<dt class="basicInfo-item name">中文名</dt>
<dd class="basicInfo-item value">
湖南大学
</dd>
<dt class="basicInfo-item name">外文名</dt>
<dd class="basicInfo-item value">
Hunan University
</dd>
<dt class="basicInfo-item name">简 称</dt>
<dd class="basicInfo-item value">
<a target="_blank" href="/item/%E6%B9%96%E5%A4%A7/406102" data-lemmaid="406102">湖大</a>·<a target="_blank" href="/item/HNU">HNU</a>
</dd>
<dt class="basicInfo-item name">创办时间</dt>
<dd class="basicInfo-item value">
1903年
</dd>
<dt class="basicInfo-item name">类 别</dt>
<dd class="basicInfo-item value">
公立大学
</dd>
<dt class="basicInfo-item name">类 型</dt>
<dd class="basicInfo-item value">
综合类<a target="_blank" href="/item/%E7%A0%94%E7%A9%B6%E5%9E%8B%E5%A4%A7%E5%AD%A6">研究型大学</a>
</dd>
.......
<dd class="basicInfo-item value">
<a target="_blank" href="/item/%E9%92%9F%E5%BF%97%E5%8D%8E">钟志华</a>、<a target="_blank" href="/item/%E8%B0%AD%E8%94%9A%E6%B3%93">谭蔚泓</a>、<a target="_blank" href="/item/%E4%BD%95%E4%BA%BA%E5%8F%AF">何人可</a>、<a target="_blank" href="/item/%E7%86%8A%E6%99%93%E9%B8%BD">熊晓鸽</a>、<a target="_blank" href="/item/%E8%92%8B%E8%B6%85%E8%89%AF">蒋超良</a>、<a target="_blank" href="/item/%E9%82%93%E9%A3%9E/1525913" data-lemmaid="1525913">邓飞</a>、<a target="_blank" href="/item/%E8%B0%AD%E8%80%95">谭耕</a>等
</dd>
</dl></div>
库:由于百度有反爬机制,所以使用urllib.request库获取网页;BeautifulSoup
代码:
from bs4 import BeautifulSoup
import urllib.request url = "https://baike.baidu.com/item/%E6%B9%96%E5%8D%97%E5%A4%A7%E5%AD%A6/179157?fr=aladdin"
response = urllib.request.urlopen(url) # 访问并打开url
html = response.read() # 创建html对象读取页面源代码 soup = BeautifulSoup(html, 'html.parser') # 创建soup对象,获取html代码 title = soup.find_all('dt', class_="basicInfo-item name") # 找到所有dt标签,返回一个列表
node = soup.find_all('dd', class_="basicInfo-item value") # 找到所有dd标签,返回一个列表 allunivinfo = []
titlelist = []
infolist = [] for i in title: # 将所有dt标签内容存入列表
title = i.get_text()
titlelist.append(title)
for i in node: # 将所有dd标签内容存入列表
info = i.get_text()
infolist.append(info)
for i, j in zip(titlelist, infolist): # 多遍历循环,zip()接受一系列可迭代对象作为参数,将对象中对应的元素打包成一个个tuple(元组),然后返回由这些tuples组成的list(列表)。
info = ''.join((str(i)+':'+str(j)).split())
allunivinfo.append(info)
print(allunivinfo)
运行结果:

python简单爬虫 用beautifulsoup爬取百度百科词条的更多相关文章
- <爬虫>利用BeautifulSoup爬取百度百科虚拟人物资料存入Mysql数据库
网页情况: 代码: import requests from requests.exceptions import RequestException from bs4 import Beautiful ...
- java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业 说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到 也不想去研究大家有好办法可以call me) 例如 互 ...
- R语言爬虫:爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
- 从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 参考 ...
- Python开发简单爬虫(二)---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
- 爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...
- Python爬虫实战之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的任意帖子进行抓取 指定是否只抓取楼主发帖 ...
- Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介 网站爬虫由浅入深:慢慢来 分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
- 【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接 问题描述 通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
随机推荐
- Java中静态变量与实例变量
知识回顾 上一篇总结了java中成员变量和局部变量的区别,这一篇将总结静态变量和实例变量的一些特性和区别. 示例代码 package Variable; public class VariableDe ...
- 【FJOI 20170305】省选模拟赛
题面被改成了个猪... T1猪猪划船(boat) [题目描述] 6只可爱的猪猪们一起旅游,其中有3只大猪A,B,C,他们的孩子为3只小猪a,b,c.由于猪猪们十分凶残,如果小猪在没有父母监护的情况下, ...
- 移动web开发中input等输入框问题
移动端web开发时,input等输入框在安卓和iso中都有问题,分别有:1.iso不能点击其他区域使得输入框失去焦点2.iso输入框失去焦点后,键盘产生的空白部分不消失3.安卓端输入框得到焦点后,输入 ...
- Linux——高效玩转命令行
[0]统计文件or压缩文件的行数 zcat file.gz | sed -n '$=' #迅速.直接打印出多少行.-n 取消默认的输出,使用安静(silent)模式 '$=' 不知道是什么 ...
- HTML5外包团队 更新一下2019最新案例
本项目控件均为动态加载,3D部分使用Unity3D,其它基于ReactJS,NodeJS,部分使用cocos2D,由于项目涉密,只能发部分截图,欢迎联系索取更多案例,企鹅号 372900288 祝大家 ...
- angular学习第1步
#### 最专业,最全面的angular的学习文档 https://www.jianshu.com/p/f0f81a63cbcb ### https://www.cnblogs.com/xiaowei ...
- java中循环遍历实体类的属性和数据类型以及属性值
package com.walkerjava.test; import java.lang.reflect.Field; import java.lang.reflect.InvocationTarg ...
- Matlab -- Portfolio
1.创建空 p = Portfolio; 2.需要了解 均值,方差,协方差实现 X为矩阵 均值 = mean(X): 中位数 = median(X): 方差 = var(X): 标准差 = std(X ...
- git add * 提示warning: LF will be replaced by CRLF in 解决办法
在使用git的时候,每次执行 $ git add * 都会提示这样一个警告消息: 虽然说没有什么影响吧. 不过就是觉得太碍眼了, 按照这样设置就没有问题了: git config core.autoc ...
- shift and算法
1. CF 914F Substrings in a String 大意: 给定一个串s, q个询问, (1)单点修改, (2)询问[l,r]范围内串y的出现次数. shift and算法板子题 #p ...