美空网未登录图片----简介

上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行。

美空网未登录图片----爬虫分析

首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html

在这个页面中,咱们要找几个核心的关键点,发现平面拍摄点击进入的是图片列表页面。

接下来开始代码走起。

获取所有列表页面

我通过上篇博客已经获取到了70000(实际测试50000+)用户数据,读取到python中。

这个地方,我使用了一个比较好用的python库pandas,大家如果不熟悉,先模仿我的代码就可以了,我把注释都写完整。

import pandas as pd

# 用户图片列表页模板
user_list_url = "http://www.moko.cc/post/{}/list.html"
# 存放所有用户的列表页
user_profiles = [] def read_data():
# pandas从csv里面读取数据
df = pd.read_csv("./moko70000.csv") #文件在本文末尾可以下载
# 去掉昵称重复的数据
df = df.drop_duplicates(["nikename"])
# 按照粉丝数目进行降序
profiles = df.sort_values("follows", ascending=False)["profile"] for i in profiles:
# 拼接链接
user_profiles.append(user_list_url.format(i)) if __name__ == '__main__':
read_data()
print(user_profiles)

数据已经拿到,接下来我们需要获取图片列表页面,找一下规律,看到重点的信息如下所示,找对位置,就是正则表达式的事情了。



快速的编写一个正则表达式

<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>

引入re,requests模块

import requests
import re
# 获取图片列表页面
def get_img_list_page():
# 固定一个地址,方便测试
test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"
response = requests.get(test_url,headers=headers,timeout=3)
page_text = response.text
pattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>')
# 获取page_list
page_list = pattern.findall(page_text)

运行得到结果

[('/post/da39db43246047c79dcaef44c201492d/category/304475/1.html', '85'), ('/post/da39db43246047c79dcaef44c201492d/category/304476/1.html', '2'), ('/post/da39db43246047c79dcaef44c201492d/category/304473/1.html', '0')]

继续完善代码,我们发现上面获取的数据,有"0"的产生,需要过滤掉

# 获取图片列表页面
def get_img_list_page():
# 固定一个地址,方便测试
test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"
response = requests.get(test_url,headers=headers,timeout=3)
page_text = response.text
pattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>')
# 获取page_list
page_list = pattern.findall(page_text)
# 过滤数据
for page in page_list:
if page[1] == '0':
page_list.remove(page)
print(page_list)

获取到列表页的入口,下面就要把所有的列表页面全部拿到了,这个地方需要点击下面的链接查看一下

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.html

本页面有分页,4页,每页显示数据4*7=28

所以,基本计算公式为 math.ceil(85/28)

接下来是链接生成了,我们要把上面的链接,转换成

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/2.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/3.html
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/4.html
    page_count =  math.ceil(int(totle)/28)+1
for i in range(1,page_count):
# 正则表达式进行替换
pages = re.sub(r'\d+?\.html',str(i)+".html",start_page)
all_pages.append(base_url.format(pages))

当我们回去到足够多的链接之后,对于初学者,你可以先干这么一步,把这些链接存储到一个csv文件中,方便后续开发

# 获取所有的页面
def get_all_list_page(start_page,totle): page_count = math.ceil(int(totle)/28)+1
for i in range(1,page_count):
pages = re.sub(r'\d+?\.html',str(i)+".html",start_page)
all_pages.append(base_url.format(pages)) print("已经获取到{}条数据".format(len(all_pages)))
if(len(all_pages)>1000):
pd.DataFrame(all_pages).to_csv("./pages.csv",mode="a+")
all_pages.clear()

让爬虫飞一会,我这边拿到了80000+条数据



好了,列表数据有了,接下来,我们继续操作这个数据,是不是感觉速度有点慢,代码写的有点LOW,好吧,我承认这是给新手写的其实就是懒,我回头在用一篇文章把他给改成面向对象和多线程的

我们接下来基于爬取到的数据再次进行分析

例如 http://www.moko.cc/post/nimusi/category/31793/1.html 这个页面中,我们需要获取到,红色框框的地址,为什么要或者这个?因为点击这个图片之后进入里面才是完整的图片列表。



我们还是应用爬虫获取

几个步骤

  1. 循环我们刚才的数据列表
  2. 抓取网页源码
  3. 正则表达式匹配所有的链接
def read_list_data():
# 读取数据
img_list = pd.read_csv("./pages.csv",names=["no","url"])["url"] # 循环操作数据
for img_list_page in img_list:
try:
response = requests.get(img_list_page,headers=headers,timeout=3)
except Exception as e:
print(e)
continue
# 正则表达式获取图片列表页面
pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')
img_box = pattern.findall(response.text) need_links = [] # 待抓取的图片文件夹
for img in img_box:
need_links.append(img) # 创建目录
file_path = "./downs/{}".format(str(img[0]).replace('/', '')) if not os.path.exists(file_path):
os.mkdir(file_path) # 创建目录 for need in need_links:
# 获取详情页面图片链接
get_my_imgs(base_url.format(need[1]), need[0])

上面代码几个重点地方

        pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')
img_box = pattern.findall(response.text) need_links = [] # 待抓取的图片文件夹
for img in img_box:
need_links.append(img)

获取到抓取目录,这个地方,我匹配了两个部分,主要用于创建文件夹

创建文件夹需要用到 os 模块,记得导入一下

			# 创建目录
file_path = "./downs/{}".format(str(img[0]).replace('/', '')) if not os.path.exists(file_path):
os.mkdir(file_path) # 创建目录

获取到详情页面图片链接之后,在进行一次访问抓取所有图片链接

#获取详情页面数据
def get_my_imgs(img,title):
print(img)
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}
response = requests.get(img, headers=headers, timeout=3)
pattern = re.compile('<img src2="(.*?)".*?>')
all_imgs = pattern.findall(response.text)
for download_img in all_imgs:
downs_imgs(download_img,title)

最后编写一个图片下载的方法,所有的代码完成,图片保存本地的地址,用的是时间戳。



def downs_imgs(img,title):

    headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}
response = requests.get(img,headers=headers,timeout=3)
content = response.content
file_name = str(int(time.time()))+".jpg"
file = "./downs/{}/{}".format(str(title).replace('/','').strip(),file_name)
with open(file,"wb+") as f:
f.write(content) print("完毕")

运行代码,等着收图

代码运行一下,发现报错了



原因是路径的问题,在路径中出现了...这个特殊字符,我们需要类似上面处理/的方式处理一下。自行处理一下吧。

数据获取到,就是这个样子的

代码中需要完善的地方

  1. 代码分成了两部分,并且是面向过程的,非常不好,需要改进
  2. 网络请求部分重复代码过多,需要进行抽象,并且加上错误处理,目前是有可能报错的
  3. 代码单线程,效率不高,可以参照前两篇文章进行改进
  4. 没有模拟登录,最多只能爬取6个图片,这也是为什么先把数据保存下来的原因,方便后期直接改造

github代码地址与csv地址

Python爬虫入门教程 4-100 美空网未登录图片爬取的更多相关文章

  1. Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...

  2. Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

  3. Python爬虫入门教程 32-100 B站博人传评论数据抓取 scrapy

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  4. Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分

    1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...

  5. Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分

    1. Python爬虫入门教程 爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...

  6. Python爬虫入门教程 3-100 美空网数据爬取

    美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...

  7. Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy

    爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒 数据分析 官方网址为 https://www.clouderwor ...

  8. Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy

    爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...

  9. Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

    写在前面 从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...

随机推荐

  1. 网络对抗技术 20165220 Exp6 信息搜集与漏洞扫描

    网络对抗技术 20165220 Exp6 信息搜集与漏洞扫描 实验任务 (1)各种搜索技巧的应用 (2)DNS IP注册信息的查询 (3)基本的扫描技术:主机发现.端口扫描.OS及服务版本探测.具体服 ...

  2. 运行报错:java.io.IOException: invalid constant type: 15

    jdk,tomcat更新到jdk1.8与 tomcat8 运行报错:java.io.IOException: invalid constant type: 15 pom.xml文件中更新javassi ...

  3. 提高在word编辑公式的效率,及快捷键、对齐、编号问题

    1.     Word中编辑公式简介(重点看) https://jacobz.top/2017-08/WordMath/ 2.     快捷键 https://wenku.baidu.com/view ...

  4. C#中委托和事件的区别

    大致来说,委托是一个类,该类内部维护着一个字段,指向一个方法.事件可以被看作一个委托类型的变量,通过事件注册.取消多个委托或方法.本篇分别通过委托和事件执行多个方法,从中体会两者的区别. □ 通过委托 ...

  5. 视频播放—— H5同层播放器接入规范

    H5同层播放器接入规范 x5-video-player-type 启用H5同层播放器 通过video属性“x5-video-player-type”声明启用同层H5播放器 x5-video-playe ...

  6. PBRT笔记(7)——反射模型

    基础术语 表面反射可以分为4大类: diffuse 漫反射 glossy specular 镜面反射高光 perfect specular 完美反射高光 retro-reflective distri ...

  7. NOI2017总结

    时光剥离你我像一袭华美衣衫 却要被追悔爬满 退役之战,去得匆匆,看得蒙蒙. 第三次全国赛,曾经的APIO初二选手也走到了时间的尽头. 第一次走向全国舞台的激动与忐忑,第一次在大赛中失利的沮丧与绝望,第 ...

  8. S0.4 二值图与阈值化

    目录 二值图的定义 二值图的应用 阈值化 二值化/阈值化方法 1,无脑简单判断 opencv3函数threshold()实现 2,Otsu算法(大律法或最大类间方差法) OpenCV3 纯代码实现大津 ...

  9. IOS开发中关于runtime的认识

    首先要知道我们写的代码在程序运行过程中都会被转化成runtime的C代码执行. runtime突出的一点就是OC中消息传递机制的应用.objc_msgsend(target,SEL); 首先我们先看一 ...

  10. DAO模式

    什么是DAO模式: DAO(Data Access Object Pattern)用于将低层的数据操作API与上层的业务逻辑层分离,其主要涉及以下几个部分: 1.Data Access Object ...