直接上代码,先来个爬取豆瓣图片的,大致思路就是发送请求-得到响应数据-储存数据,原理的话可以先看看这个

https://www.cnblogs.com/sss4/p/7809821.html

import os#同来创造文件夹
import requests#发送请求和得到响应用的
from bs4 import BeautifulSoup#用来解析回应的数据 def GetHtmlText(url):#得到响应数据
try:
r = requests.get(url)#发送url
r.raise_for_status()#判断是否成功
r.encoding = 'utf-8'#设置编码格式
return r.text#返回他的响应数据
except:
return ''
def main(pages):
filepath=os.getcwd()+'\爬的图片\\'#创造一个文件夹
if not os.path.exists(filepath):#如果没有则创造
os.makedirs(filepath) pagenum=pages#要爬取的页数
fnum=1
for page in range(pages):
url="https://movie.douban.com/celebrity/1048000/photos/?type=C&start="+str(page*30)+'&sortby=like&size=a&subtype=a'#第几页
html=GetHtmlText(url)
soup=BeautifulSoup(html,'html.parser')#html。parser是解析器
uls=soup.find_all('ul',class_="poster-col3 clearfix")#从响应的数据中找到ul class是xxxx的数据
for ul in uls:
imgs=ul.find_all('img') #找到img的标签
for img in imgs:
imgurl=img['src']#得到img的url
imgcontent=requests.get(imgurl).content#得到这个url下的内容content,应该是二进制的
filename=str(fnum)+'.jpg'
with open(filepath+filename,'wb') as wf:#二进制形式写入数据
wf.write(imgcontent)
fnum+=1 if __name__ == '__main__':
main(9)

再来个爬去标题类的

import requests
from bs4 import BeautifulSoup url="http://www.jianshu.com"
headers={'User-Agent':'SE 2.X MetaSr 1.0'}#设置请求头的User-Agent,理解的话可以认为是从哪个浏览器发出的,不然的话会被反爬虫
page=requests.get(url=url,headers=headers)
page_info=page.text
page_bf=BeautifulSoup(page_info,'html.parser') #print(page_bf.prettify())
titles=page_bf.find_all('a','title') for title in titles:
print(title.string)
print('http://www.jianshu.com'+title.get('href'))
with open(r"D:\untitled\爬虫爬到的标题.txt","w",encoding='utf-8') as file:
for title in titles:
file.write(title.string+'\n')
file.write("http://www.jianshu.com"+title.get('href')+'\n\n')

这个是下载小说的---(别人的代码)

from bs4 import BeautifulSoup
import requests,sys
class downloader(object):
def __init__(self):
self.server="http://www.biqukan.com/"
self.target="http://www.biqukan.com/1_1094"
self.name=[]
self.urls=[]
self.nums=0 def get_download_url(self):
req=requests.get(url=self.target)
html=req.text
div_bf=BeautifulSoup(html)
div=div_bf.find_all('div',class_='listmain')
a_bf=BeautifulSoup(str(div[0]))
a=a_bf.find_all('a')
self.nums=len(a[15:])
for each in a[15:]:
self.name.append(each.string)
self.urls.append(self.server+each.get('href'))
def get_contents(self ,target):
req=requests.get(url=target)
html=req.text
bf=BeautifulSoup(html)
texts=bf.find_all('div',class_='showtxt')
texts=texts[0].text.replace('\xa0'*8,'\n\n')
return texts
def writer(self,name,path,text):
write_flag=True
with open(path,"a",encoding='utf-8') as f:
f.write(name+'\n')
f.writelines(text)
f.write('\n\n') dl=downloader()
dl.get_download_url()
print("开始下载")
for i in range(dl.nums):
dl.writer(dl.name[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))
sys.stdout.write(" 已下载:%.3f%%" % float(i/dl.nums) + '\r')
sys.stdout.flush()
print('《一年永恒》下载完成')

python3爬虫-快速入门-爬取图片和标题的更多相关文章

  1. python爬虫-基础入门-爬取整个网站《3》

    python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...

  2. python爬虫-基础入门-爬取整个网站《2》

    python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

  3. python爬虫-基础入门-爬取整个网站《1》

    python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...

  4. Scrapy爬虫快速入门

    安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. pip install sc ...

  5. scrapy爬虫系列之三--爬取图片保存到本地

    功能点:如何爬取图片,并保存到本地 爬取网站:斗鱼主播 完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...

  6. Python 网络爬虫 002 (入门) 爬取一个网站之前,要了解的知识

    网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...

  7. 爬虫---Beautiful Soup 爬取图片

    上一篇简单的介绍Beautiful Soup 的基本用法,这一篇写下如何爬取网站上的图片,并保存下来 爬取图片 1.找到一个福利网站:http://www.xiaohuar.com/list-1-1. ...

  8. python3爬虫之入门和正则表达式

    前面的python3入门系列基本上也对python入了门,从这章起就开始介绍下python的爬虫教程,拿出来给大家分享:爬虫说的简单,就是去抓取网路的数据进行分析处理:这章主要入门,了解几个爬虫的小测 ...

  9. python3 爬虫教学之爬取链家二手房(最下面源码) //以更新源码

    前言 作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构 这里以广州链家二手房为例:http:/ ...

随机推荐

  1. OpenMax的接口与实现

    OpenMax IL层的接口定义由若干个头文件组成,这也是实现它需要实现的内容,它们的基本描述如下所示. OMX_Types.h:OpenMax Il的数据类型定义 OMX_Core.h:OpenMa ...

  2. mybatis异常:Invalid bound statement (not found): com.mybatis01.dao.UserDao.select_Map;Could not find result map com.mybatis01.dao.UserDao.User

    错误原因:查询结果类型错误 查询结果应该是User实体类 在光标指的地方应该为ResultType,而不是ResultMap.

  3. 【模板】RMQ(计算区间最值)

    ①一维RMQ (1) dp[i,j] 表示从第i个数起连续2j个数中的(最大值min.最小值max.最大公约数gcd……),通过更改下列代码中的红色函数即可实现. (2) b数组放置所需查询的数列. ...

  4. vue的$emit 与$on父子组件与兄弟组件的之间通信

    本文主要对vue 用$emit 与 $on 来进行组件之间的数据传输. 主要的传输方式有三种: 1.父组件到子组件通信 2.子组件到父组件的通信 3.兄弟组件之间的通信 一.父组件传值给子组件 父组件 ...

  5. Ubuntu之C++开发环境的搭建

    初学Linux,今天反复卸载与重装微软商店的Ubuntu好几次,终于解锁了在Ubuntu上搭建C++开发环境的正确姿势, 搭建了一个非常简单的开发环境:简单到什么地步呢?只是简单地配置了一下编辑器,安 ...

  6. collections.namedtuple()命名序列元素

    ## collections.namedtuple()命名序列元素 from collections import namedtuple Student = namedtuple("Stud ...

  7. Hadoop2学习路程-HDFS

    什么是Hadoop HDFS? Hadoop 分布式文件系统是世界上最可靠的文件系统.HDFS可以再大量硬件组成的集群中存储大文件. 它的设计原则是趋向于存储少量的大文件,而不是存储大量的小文件. 即 ...

  8. 转载:CSS的组成,三种样式(内联式,嵌入式,外部式),优先级

    (仅供自己备份) 原文地址:http://blog.csdn.net/chq11106004389/article/details/50515717 CSS的组成 选择符/选择器+声明(属性+值) 选 ...

  9. 『Linux基础 - 3』 Linux文件目录介绍

    Windows 和 Linux 文件系统区别 -- 结构 Windows 下的文件系统 - 在 Windows 下,打开 "计算机",我们看到的是一个个的驱动器盘符: - 每个驱动 ...

  10. HTTP学习之URL与资源

    URL是因特网资源的标准化名称,该字符串指向一条电子信息片段,定义服务端应用程序在什么位置以及客户端要如何与其交互 一条完整的URL由多个片段组成. 通用URL组件 方案 以哪种协议访问服务器 用户 ...