python利用beautifulsoup多页面爬虫

利用了beautifulsoup进行爬虫，解析网址分页面爬虫并存入文本文档：

结果：

源码：

from bs4 import BeautifulSoup

from urllib.request import urlopen

with open("热门标题.txt","a",encoding="utf-8") as f:

    for i in range(2):

        url = "http://www.ltaaa.com/wtfy-{}".format(i)+".html"

        html = urlopen(url).read()

        soup = BeautifulSoup(html,"html.parser")

        titles = soup.select("div[class = 'dtop' ] a") # CSS 选择器

        for title in titles:

             print(title.get_text(),title.get('href'))# 标签体、标签属性

             f.write("标题：{}\n".format(title.get_text()))

python利用beautifulsoup多页面爬虫的更多相关文章

python利用beautifulSoup写爬虫
python BeautifulSoup模块的安装安装包下载地址:http://www.crummy.com/software/BeautifulSoup/#Download 文档:http://w ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python 利用爬虫获取页面上下拉框里的所有国家
前段时间,领导说列一下某页面上的所有国家信息,话说这个国家下拉框里的国家有两三百个,是第三方模块导入的,手动从页面拷贝,不切实际,于是想着用爬虫去获取这个国家信息,并保存到文件里. 下面是具体的代码, ...
Python爬虫之利用BeautifulSoup爬取豆瓣小说（二）——回车分段打印小说信息
在上一篇文章中,我主要是设置了代理IP,虽然得到了相关的信息,但是打印出来的信息量有点多,要知道每打印一页,15个小说的信息全部会显示而过,有时因为屏幕太小,无法显示全所有的小说信息,那么,在这篇文章 ...
python爬虫：利用BeautifulSoup爬取链家深圳二手房首页的详细信息
1.问题描述: 爬取链家深圳二手房的详细信息,并将爬取的数据存储到Excel表 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目标网址:https://sz.lianjia.com ...
Python 自用代码（scrapy多级页面(三级页面)爬虫）
2017-03-28 入职接到的第一个小任务,scrapy多级页面爬虫,从来没写过爬虫,也没学过scrapy,甚至连xpath都没用过,最后用了将近一周才搞定.肯定有很多low爆的地方,希望大家可以给 ...
[Python] 利用Django进行Web开发系列（二）
1 编写第一个静态页面——Hello world页面在上一篇博客<[Python] 利用Django进行Web开发系列(一)>中,我们创建了自己的目录mysite. Step1:创建视图 ...
利用aiohttp制作异步爬虫
asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块.关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架--a ...

随机推荐

Vue 变异方法splice删除评论功能
<!doctype html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
转:xcode项目打不开:incompatible project version问题
这个是xcode版本对应不上,不一定要修改版本,我们修改记录版本的文件里面的版本号就行了. 低版本xcode打开高版本xcode项目或库工程的时候就会出现,打不开的问题解决 1可以重建创建工程,将文 ...
ubuntu python 版本管理
ubuntu 命令行查看 python 目录 $ whereis python # 显示所有得到 python 目录 $ which python # 显示默认的 python 解释器目录 $ wh ...
java文件操作File类
1.文件路径操作测试方法 @Test public void test5() { StringBuffer succBuffer = new StringBuffer("D:\\home\ ...
python asyncio run_until_complete
import asyncio def callback(loop, i): print("success time {} {}".format(i, loop.time())) a ...
idea配置热加载
第一步:添加依赖 spring-boot项目中引入如下依赖 <dependency> <groupId>org.springframework.boot</groupId ...
SATA接口、PCI/PCIe、NVMe的介绍
SATA接口.PCI/PCIe.NVMe的介绍 SATA接口 SATA是Serial ATA的缩写,即串行ATA. SATA已经完全取代旧式PATA(Parallel ATA或旧称IDE)接口的旧式硬 ...
Kafka Network层解析，还是有人把它说清楚了
我们知道kafka是基于TCP连接的.其并没有像很多中间件使用netty作为TCP服务器.而是自己基于Java NIO写了一套. 几个重要类先看下Kafka Client的网络层架构. 本文主要分析 ...
OSI七层模型简述
一.OSI七层参考模型开放式系统互联通信参考模型(英语:Open System Interconnection Reference Model,缩写为 OSI),简称为OSI模型(OSI model ...
Vue 动态修改data 值并触发视图更新
Vue 动态修改data 值并触发视图更新 this.$set(obj, key, '') // Vue 动态修改或者添加data key 并触发视图更新

python利用beautifulsoup多页面爬虫

python利用beautifulsoup多页面爬虫的更多相关文章

随机推荐

热门专题