python爬虫-百度百科百名红通人员名单

爬虫代码：

 import urllib.request

 import os, re

 from bs4 import BeautifulSoup

 import xlwt

 URL = "https://baike.baidu.com/item/%E7%99%BE%E5%90%8D%E7%BA%A2%E9%80%9A%E4%BA%BA%E5%91%98/23252458?fr=aladdin"

 page = urllib.request.urlopen(URL)

 soup = BeautifulSoup(page)

 page.close()

 tables = soup.findAll('table')

 tab = tables[0]

 tr=tab.findAll('tr')

 j=0

 aa=[None]*100

 pm = xlwt.Workbook()

 sheet = pm.add_sheet('Sheet1', cell_overwrite_ok=True)

 for th in tr:

     i = 0

     for td in th.findAll('td'):

         sheet.write(j,i,str(td.text.replace("\n", "").replace(' ', '')))

         i=i+1

     j=j+1

 pm.save("F://py//百名红通人员.xls")

python爬虫-百度百科百名红通人员名单的更多相关文章

python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫-百度模拟登录（二）
上一篇-Python爬虫-百度模拟登录(一) 接上一篇的继续参数 codestring codestring jxG9506c1811b44e2fd0220153643013f7e6b1898075 ...
Python爬虫-百度模拟登录（一）
千呼万唤屎出来呀,百度模拟登录终于要呈现在大家眼前了,最近比较忙,晚上又得早点休息,这篇文章写了好几天才完成.这个成功以后,我打算试试百度网盘的其他接口实现.看看能不能把服务器文件上传到网盘,好歹也有 ...
Python爬虫：获取新浪网新闻
代码 #coding:utf-8 import requests from bs4 import BeautifulSoup res = requests.get("http://news. ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(I ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...

随机推荐

jersey 开启gzip
@Bean public ResourceConfig resourceConfig() { ResourceConfig resourceConfig = new ResourceConfig(); ...
UBNT ex-r +netgear gs105e v2 +ap 设置vlan 步骤记录及相关知识整理
设备连接:路由器ex-r的eth0 连接光猫拨号,eth3连接交换机gs105e,交换机gs105e的eth3连接无线ap 需求:路由器拨号上网,通过不同ssid的无线网络可以连接不同vlan,且交 ...
mac tomcat安装
https://blog.csdn.net/qq_35106903/article/details/78860121
Python中的split()函数的用法
函数:split() Python中有split()和os.path.split()两个函数,具体作用如下:split():拆分字符串.通过指定分隔符对字符串进行切片,并返回分割后的字符串列表(lis ...
TinkPHP框架学习-04命名空间
1-----命名空间 2-----调用其他控制器的方法 3-----U()函数一命名空间 ①看做是虚拟目录 --ThinkPHP/Library 初始命名空间 --在Library文件夹下的所有文件 ...
面试常问MySQL性能优化问题
知识综述: [1] MySQL中锁的种类: 常见的表锁和行锁,也有Metadata Lock等等,表锁是对一整张表加锁,分为读锁和写锁,因为是锁住整张表,所以会导致并发能力下降,一般是做ddl处理时使 ...
手动卸载的vs2010
手动卸载的vs2010: 环境:Win7 卸载工具:IobitUninstaller(绿色版)//个人推荐,比较强大好用按照以下顺序:1.Microsoft .NET Framework 4 框架 ...
js导出excel文件
<div id="tablesDiv"> <table id="tabDiv1"> <tbody><tr> &l ...
javascript正则表达式分组捕获理解
我们先来看一段js代码: var rquickExpr = /^(?:(<[\w\W]+>)[^>]*|#([\w-]*))$/; console.log(rquickExpr.ex ...
.net WCF简单练习
之前一直没接触过WCF这个东西,由于是初学WCF没有深入研究其原理,只是写了一个demo WCF服务用于两个不同项目中的调用,在这里我举例项目A调用WCF服务实现查询数据功能. 第一步:创建数据库,有 ...

python爬虫-百度百科百名红通人员名单

python爬虫-百度百科百名红通人员名单的更多相关文章

随机推荐

热门专题