python3爬虫-快速入门-爬取图片和标题

直接上代码，先来个爬取豆瓣图片的，大致思路就是发送请求-得到响应数据-储存数据，原理的话可以先看看这个

https://www.cnblogs.com/sss4/p/7809821.html

import os#同来创造文件夹

import requests#发送请求和得到响应用的

from bs4 import BeautifulSoup#用来解析回应的数据

def GetHtmlText(url):#得到响应数据

    try:

        r = requests.get(url)#发送url

        r.raise_for_status()#判断是否成功

        r.encoding = 'utf-8'#设置编码格式

        return r.text#返回他的响应数据

    except:

        return ''

def main(pages):

    filepath=os.getcwd()+'\爬的图片\\'#创造一个文件夹

    if not os.path.exists(filepath):#如果没有则创造

        os.makedirs(filepath)

    pagenum=pages#要爬取的页数

    fnum=1

    for page in range(pages):

        url="https://movie.douban.com/celebrity/1048000/photos/?type=C&start="+str(page*30)+'&sortby=like&size=a&subtype=a'#第几页

        html=GetHtmlText(url)

        soup=BeautifulSoup(html,'html.parser')#html。parser是解析器

        uls=soup.find_all('ul',class_="poster-col3 clearfix")#从响应的数据中找到ul class是xxxx的数据

        for ul in uls:

            imgs=ul.find_all('img') #找到img的标签

            for img in imgs:

                imgurl=img['src']#得到img的url

                imgcontent=requests.get(imgurl).content#得到这个url下的内容content，应该是二进制的

                filename=str(fnum)+'.jpg'

                with open(filepath+filename,'wb') as wf:#二进制形式写入数据

                    wf.write(imgcontent)

                fnum+=1

if __name__ == '__main__':

    main(9)

再来个爬去标题类的

import requests

from bs4 import BeautifulSoup

url="http://www.jianshu.com"

headers={'User-Agent':'SE 2.X MetaSr 1.0'}#设置请求头的User-Agent，理解的话可以认为是从哪个浏览器发出的，不然的话会被反爬虫

page=requests.get(url=url,headers=headers)

page_info=page.text

page_bf=BeautifulSoup(page_info,'html.parser')

#print(page_bf.prettify())

titles=page_bf.find_all('a','title')

for title in titles:

    print(title.string)

    print('http://www.jianshu.com'+title.get('href'))

with open(r"D:\untitled\爬虫爬到的标题.txt","w",encoding='utf-8') as file:

    for title in titles:

        file.write(title.string+'\n')

        file.write("http://www.jianshu.com"+title.get('href')+'\n\n')

这个是下载小说的---（别人的代码）

from bs4 import BeautifulSoup

import requests,sys

class downloader(object):

    def __init__(self):

        self.server="http://www.biqukan.com/"

        self.target="http://www.biqukan.com/1_1094"

        self.name=[]

        self.urls=[]

        self.nums=0

    def get_download_url(self):

        req=requests.get(url=self.target)

        html=req.text

        div_bf=BeautifulSoup(html)

        div=div_bf.find_all('div',class_='listmain')

        a_bf=BeautifulSoup(str(div[0]))

        a=a_bf.find_all('a')

        self.nums=len(a[15:])

        for each in a[15:]:

            self.name.append(each.string)

            self.urls.append(self.server+each.get('href'))

    def get_contents(self ,target):

        req=requests.get(url=target)

        html=req.text

        bf=BeautifulSoup(html)

        texts=bf.find_all('div',class_='showtxt')

        texts=texts[0].text.replace('\xa0'*8,'\n\n')

        return texts

    def writer(self,name,path,text):

        write_flag=True

        with open(path,"a",encoding='utf-8') as f:

            f.write(name+'\n')

            f.writelines(text)

            f.write('\n\n')

dl=downloader()

dl.get_download_url()

print("开始下载")

for i in range(dl.nums):

    dl.writer(dl.name[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))

    sys.stdout.write("  已下载:%.3f%%" %  float(i/dl.nums) + '\r')

    sys.stdout.flush()

print('《一年永恒》下载完成')

python3爬虫-快速入门-爬取图片和标题的更多相关文章

python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Scrapy爬虫快速入门
安装Scrapy Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. pip install sc ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
爬虫---Beautiful Soup 爬取图片
上一篇简单的介绍Beautiful Soup 的基本用法,这一篇写下如何爬取网站上的图片,并保存下来爬取图片 1.找到一个福利网站:http://www.xiaohuar.com/list-1-1. ...
python3爬虫之入门和正则表达式
前面的python3入门系列基本上也对python入了门,从这章起就开始介绍下python的爬虫教程,拿出来给大家分享:爬虫说的简单,就是去抓取网路的数据进行分析处理:这章主要入门,了解几个爬虫的小测 ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...

随机推荐

单独调用kindeditor的多图上传组件实现多图上传
本例是单独调用kindeditor多图上传的组件来进行多图上传,兼容性你懂得! 官方示例地址:http://kindeditor.net/ke4/examples/multi-image-dialog ...
Mysql 基本语句 + 高级查询
MySQL执行SQL脚本文件的命令: 从cmd进入mysql命令行模式: mysql> -uroot –prootpassword –Ddatabasename 如果是我本地的数据库,就相应修改 ...
Unity应用发布如何在本地查看Debug输出？
http://blog.csdn.net/zfsr05255134/article/details/51867323
2018 Wannafly summer camp Day8--连通块计数
连通块计数描述题目描述: 小 A 有一棵长的很奇怪的树,他由 n 条链和 1 个点作为根构成,第 i条链有 ai 个点,每一条链的一端都与根结点相连. 现在小 A 想知道,这棵长得奇怪的树有多少 ...
Redis学习笔记(一)
定义 Redis是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库. 从该定义中抽出几个关键信息,以表示Redis的特性: 存储结构:key-val ...
关于windows下安装mysql数据库出现中文乱码的问题
首先需要在自己安装的mysql路径下新建一个my.ini文件,如下: 然后在my.ini文件中输入一下内容,主要控制编码问题的为红框部分,如下: 为了方便大家使用,可以复制以下代码: [WinMySQ ...
windows简易使用composer 安装国内镜像
1.下载composer.phar文件地址: https://getcomposer.org/download/ 从下面选择一个 2.下载成功,新建项目(找到已有的项目文件夹)文件夹(D:\PHP ...
React的安装方法
一:直接使用 BootCDN 的 React CDN 库,地址如下: <script src="https://cdn.bootcss.com/react/16.4.0/umd/rea ...
Java开发小技巧（六）：使用Apache POI读取Excel
前言在数据仓库中,ETL最基础的步骤就是从数据源抽取所需的数据,这里所说的数据源并非仅仅是指数据库,还包括excel.csv.xml等各种类型的数据接口文件,而这些文件中的数据不一定是结构化存储的, ...
player视频.js
var playStatus = 'pending'; var html_a = '<div class="weui-dialog__bd" id="lly_dia ...

python3爬虫-快速入门-爬取图片和标题

python3爬虫-快速入门-爬取图片和标题的更多相关文章

随机推荐

热门专题