python3爬虫爬取金庸小说所有角色
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
url = 'http://www.jinyongwang.com/data/renwu/';
def getHTML(url):
    r = requests.get(url)
    return r.content
def parseHTML(html):
    soup = BeautifulSoup(html,'html.parser')
    body = soup.body
    main = body.find('div',attrs={'class':'main'})
    booklist = main.find('div',attrs={'class':'booklist'})
    for datapice in booklist.find_all('div',attrs={'class':'datapice'}):
        for a in datapice.find_all('a'):
            print(a.get_text().replace(' ',''))
html = getHTML(url);
print(parseHTML(html))
python3爬虫爬取金庸小说所有角色的更多相关文章
- 使用scrapy爬取金庸小说目录和章节url
		
刚接触使用scrapy的时候,如果一开始就想实现特别复杂的配置,显然是不太现实的,用一些小的例子可以帮助自己理解各个模块. 今天的目标:爬取http://www.luoxia.com/shendiao ...
 - Python爬虫爬取全书网小说,程序源码+程序详细分析
		
Python爬虫爬取全书网小说教程 第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下 点击Network之后出现如下 ...
 - python3爬虫爬取网页思路及常见问题(原创)
		
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
 - python3 爬虫---爬取糗事百科
		
这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数''指的是页数,第二页就是'/page/2',以此类推... 一.分析网页 ...
 - python3 爬虫---爬取豆瓣电影TOP250
		
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
 - python3 爬虫爬取深圳公租房轮候库(深圳房网)
		
深圳公租房轮候库已经朝着几十万人的规模前进了,这是截至16年10月之前的数据了,贴上来大家体会下 所以17年已更新妥妥的10W+ 今天就拿这个作为爬虫的练手项目 1.环境准备: 操作系统:win10 ...
 - python3爬虫-爬取新浪新闻首页所有新闻标题
		
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
 - python3爬虫-爬取58同城上所有城市的租房信息
		
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
 - python3爬虫爬取猫眼电影TOP100(含详细爬取思路)
		
待爬取的网页地址为https://maoyan.com/board/4,本次以requests.BeautifulSoup css selector为路线进行爬取,最终目的是把影片排名.图片.名称.演 ...
 
随机推荐
- 数据分析交互工具jupyter notebook需要密码登陆解决办法
			
想要做数据分析,交互可视化工具jupyter notebook是必不可少的,但是在安装和使用其时候总是会出现各种各样的问题,本文针对notebook启动需要密码的问题进行解决. 首先看一下启动jupy ...
 - coreseek 在gcc 4.9+ 上编译不通过 [sphinxexpr.o] Error 1 错误解决方案
			
这几天玩hhvm,把gcc环境都装到4.9了,然后编译coreseek的时候就出问题,google一大圈,貌似捕风捉影看到一些信息说是gcc4.7+的c++作用域必须用this->去引用,这里整 ...
 - 为何银行愿为收购supercell做无权追索融资?
			
无追索权融资又称纯粹的项目融资,是指贷款人对项目主办人没有任何追索权的项目融资.简单来说,这是一种项目失败,也无法追尝的承诺,一般发生在石油.天然气.煤炭.铜.铝等矿产资源开发等相对较为保值的项目融资 ...
 - IP 转发分组的流程
			
IP 转发分组的流程 数据路由:路由器在不同网段转发数据包: 网络畅通的条件:数据包能去能回: 从源网络发出时,沿途的每一个路由器必须知道到目标网络下一跳给哪个接口: 从目标网络返回时,沿途的每一个路 ...
 - Samtec与Neoconix达成合作并和II-VI推出新产品
			
序言:Samtec近日动作不断, 近日Samtec与Neoconix达成合作并和II-VI推出新产品,以下是详细内容. Samtec与Neoconix签订Neoconix PCBeam 技术授权协议, ...
 - 全差分运算放大器ADA4930的分析(1)
			
AD转换芯片的模拟信号输入端方式为:全差分.伪差分.单端输入,其中全差分输入的效果最佳,现阶段ADC转换器为了提高其性能,建议用户使用全差分的输入方式.(AD7982.ADS8317等都能实现信号的全 ...
 - Python - loguru日志库,高效输出控制台日志和日志记录
			
一.安装loguru loguru的PyPI地址为:https://pypi.org/project/loguru/ GitHub仓库地址为:https://github.com/Delgan/log ...
 - day05基本运算符,格式化输出,垃圾回收机制
			
内容大纲:1.垃圾回收机制详解(了解) 引用计数 标记清除 分代回收 2.与用户交互 接收用户输入 # python3中 input # python2.7(了解) input raw_input 格 ...
 - koa进阶史(二)
			
之前想着放弃CAS的验证吧,但是又去请教了一个大牛,了解到sf公司的CAS验证校验的参数不是sessionId而是另外两个,后登陆sit环境偷了两个参数后,后台接口成功返回200.然后node层也就能 ...
 - go结构体继承组合和匿名字段
			
1.结构体方法 go不是纯粹的面向对象的,在go里面函数是一等公民,但是go也有结构体实现类似java一样类的功能来提供抽象.结构体的方法分为值方法和指针方法,前者在方法中做的改变不会改变调用的实例对 ...