python3.6 简单爬虫

# coding='UTF-8'

from bs4 import BeautifulSoup  # 引入beautifulsoup 解析html事半功倍

import re

import urllib

import urllib.request

import sys

import io

import json

from collections import deque

import time

sys.stdout = io.TextIOWrapper(

    sys.stdout.buffer, encoding='utf8')  # 改变标准输出的默认编码（这个比较重要一点，可以有效解决编码异常）def gethtml(soup):

    data = soup.find_all("img")

    for x in data:

        path = "k:/asd/" + '%s.jpg' % time.time()

        fileurl = x.get("src")

        print(fileurl)

        try:

            urllib.request.urlretrieve(fileurl, path)

        except:

            pass

url = "http://www.toutiao.com/"

queue = deque()

visited = set()

cnt = 0

queue.append(url)

while queue:

    url = queue.popleft()  # 队首元素出队

    visited |= {url}  # 标记为已访问

    print('已经抓取: ' + str(cnt) + '   正在抓取 <---  ' + url)

    cnt += 1

    try:

        urlop = urllib.request.urlopen(url)

    except:

        continue

    try:

        html = urlop.read().decode()

    except:

        pass

    soup = BeautifulSoup(html)

    data = gethtml(soup)

    # print(data)

    for x in soup.find_all('a'):  # 这里提现引入beautifulsoup 的方便之处  可以直接解析html 拿到elm 
　　　　　　　　　　　　　　　　　　　　#这个是beautifulsoup 文档可以看下　https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id37

        try:

            if 'http' in x.get("href") and x.get("href") not in visited:

                queue.append(x.get("href"))

                print('加入队列 --->  ' + x.get("href"))

        except:

            pass

print("----------------------end-------------------")

# coding='UTF-8'from bs4 import BeautifulSoupimport reimport urllibimport urllib.requestimport sysimport ioimport jsonfrom collections import dequeimport time

sys.stdout = io.TextIOWrapper( sys.stdout.buffer, encoding='utf8') # 改变标准输出的默认编码
imgqu = deque()imvli = set()

def gethtml(soup): data = soup.find_all("img") for x in data: path = "k:/asd/" + '%s.jpg' % time.time() fileurl = x.get("src") print(fileurl) try: urllib.request.urlretrieve(fileurl, path) except: pass

url = "http://www.toutiao.com/"queue = deque()visited = set()cnt = 0
queue.append(url)
while queue: url = queue.popleft() # 队首元素出队 visited |= {url} # 标记为已访问
print('已经抓取: ' + str(cnt) + ' 正在抓取 <--- ' + url) cnt += 1
try: urlop = urllib.request.urlopen(url) except: continue
try: html = urlop.read().decode() except: pass soup = BeautifulSoup(html) data = gethtml(soup) # print(data)
for x in soup.find_all('a'): try: if 'http' in x.get("href") and x.get("href") not in visited: queue.append(x.get("href")) print('加入队列 ---> ' + x.get("href"))
except: pass
print("----------------------end-------------------")

python3.6 简单爬虫的更多相关文章

python3实现简单爬虫功能
本文参考虫师python2实现简单爬虫功能,并增加自己的感悟. #coding=utf-8 import re import urllib.request def getHtml(url): page ...
【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫
作用,之间将目标网页保存金本地 1.爬虫代码修改自网络,目前运行平稳,博主需要的是精准爬取,数据量并不大,暂未加多线程. 2.分割策略是通过查询条件进行分类,循环启动多条线程. 1.单线程简单爬虫(第 ...
python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
Python做简单爬虫（urllib.request怎么抓取https以及伪装浏览器访问的方法）
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
python简单爬虫一
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
python 简单爬虫（beatifulsoup)
---恢复内容开始--- python爬虫学习从0开始第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或 ...
python_2开发简单爬虫
2017年12月03日 16:43:01 独行侠的守望阅读数:204 标签: python爬虫更多个人分类: Python编辑版权声明:本文为博主原创文章,转载请注明文章链接. https://b ...
pyrthon 简单爬虫实现
简单爬虫的通用步骤 BY ZKEEER 2017-09-03 2 COMMENTS 本文首发:ZKeeer’s Blog——简单爬虫的通用步骤代码基于 python3.5多图预警,长文预警知识点 ...
Python爬虫之简单爬虫框架实现
简单爬虫框架实现目录框架流程调度器url管理器网页下载器网页解析器数据处理器具体演示效果框架流程调度器 #导入模块 import Url_Manager import parser_ ...

随机推荐

PHP 7.1 新特性
PHP 7.1 新特性 1.密集阵算法 2.php int64位支持(2GB的字符串和2GB的文件的上传) 3.$a<=>$b 操作符,排序时有用 4.标量的支持,如果声明int传入st ...
ubuntu下安装pdo和pdo_mysql扩展
ubuntu下安装好LAMP后默认情况没有安装mysql_pdo扩展,以下是安装步聚 1 安装pdo sudo pecl install pdo 出现以下错误是说明pdo已经加入了php的默认安装,不 ...
vue2重写饿了么
构建 vue有自己的脚手架构建工具vue-cli,使用起来非常方便,使用webpack来集成各种开发便捷工具,比如: 代码热更新,修改代码之后网页无刷新改变,对前端开发来说非常的方便 PostCss, ...
网络爬虫与搜索引擎优化(SEO)
爬虫及爬行方式爬虫有很多名字,比如web机器人.spider等,它是一种可以在无需人类干预的情况下自动进行一系列web事务处理的软件程序.web爬虫是一种机器人,它们会递归地对各种信息性的web站点 ...
java继承（一）
虽然说java中的面向对象的概念不多,但是具体的细节还是值得大家学习研究,java中的继承实际上就是子类拥有父类所有的内容(除私有信息外),并对其进行扩展.下面是我的笔记,主要包含以下一些内容点: 构 ...
[Netty] - Netty IN ACTION(导言)
最近没什么事儿做,刚好看到有需要网络编程的知识,java中有NIO和IO两种不同的方式,但是NIO的编写比较麻烦,刚好找到一个成熟的网络框架Netty.接下来的一个月就准备将Netty IN ACTI ...
在javascript中关于变量与函数的提升
在javascript中关于变量与函数的提升一.简介在javascript中声明变量与函数的执行步骤: 1.先预解析变量或函数声明代码,会把用var声明的变量或者函数声明的代码块进行提升操作 2. ...
STM32按键控制程序
由于最近时间比较匆忙已经有很久的时间没有写博客了这次和大家分享的是STM32的一个按键的小程序他的优点呢也是和上面一个LED一样就是便于移植更改管脚方便虽然都是些小程序但是我觉得他们就像基 ...
.Net软件开发面试技巧
2016.11.20日,我们毕业了!到了大家各奔东西的日子了,有留在家里的,有另求出路的,有留在哈尔滨的,有去北京的!去北京的一共有11个同学,我就是这11个人里的一个! 大学刚毕业的时候,在济南上班 ...
“使用多target来构建大量相似App”，唐巧大神理论验证（附工程代码地址）
无意间看到巧神的文章时,感觉非常兴奋,此文章正好解决了公司目前项目的痛点. 读到以下关键一段时,不甚明了,故自己做了实验分享给有缘人. "我们的每个课程的资源文件都具有相同的文件名,例如首页 ...

python3.6 简单爬虫

python3.6 简单爬虫的更多相关文章

随机推荐

热门专题