前言:

浏览某乎网站时发现了一个分享各种图片的博主,于是我顺手就保存了一些。但是一张一张的保存实在太麻烦了,于是我就想要某虫的手段来处理。这样保存的确是很快,但是他不识图片内容,最近又看了 mobileNet 的预训练模型,想着能让程序自己对图片分类,以下就通过例子从内容采集到分类的过程。

内容和资源的采集,反手就是某虫了。在网络上,经过近几年的营销渲染,可能首选是用 Python 做脚本。而这次是用 PHP 的 QueryList 来做采集,下面也就是采集的编码过程和踩坑解决方法,最后再对采集图片进行标注和训练。

环境:

PHP7.4

QueryList4.0

QueryList-CurlMulti

编码:

以下例子是基于 TP5.1,所以只需要安装上面两个依赖包。采集启动通过自定义命令实现,接下来分别以普通采集和多线程采集两种方式展示。

1. 普通采集

<?php
/**
* @Notes: 公众号:ZERO开发
* @Interface getCondition
* @Return mixed
* @Author: bqs
* @Time: 2021/4/19 15:28
*/ namespace app\common\command; use think\console\Command;
use think\console\Input;
use think\console\Output;
use think\console\input\Argument;
use think\console\input\Option;
use think\Db;
use think\facade\Hook;
use think\facade\Log;
use QL\QueryList; class QueryListSpiderSingle extends Command
{ protected function configure()
{
$this->setName('querylist:single')
->setDescription('采集');
} protected function execute(Input $input, Output $output)
{
ini_set('memory_limit', '512M'); $output->writeln("=========date:" . date('Y-m-d H:i:s') . "==============="); // 北桥苏奥特曼
//$slImgsUrl = "https://zhuanlan.zhihu.com/p/377571373";
$slImgsUrl = "https://zhuanlan.zhihu.com/p/344680014"; // 原生query_list
$list = QueryList::get($slImgsUrl)->find('.RichText')->find('noscript')->find('img')->attrs('src'); $path = 'E:\2setsoft\1dev\phpstudy_pro\WWW\4test\tensorflowJs\js-ml-code\t7\动漫分类\train\奥特曼\\';
foreach($list as $key => $value) {
$index = $key + 1 + 42; $filename = $index < 10 ? str_pad($index, 2, "0", STR_PAD_LEFT) : $index;
$filend = pathinfo($value, PATHINFO_EXTENSION);
$file = file_get_contents($value);
file_put_contents($path . $filename . "." . $filend, $file); $output->writeln($index . "--" . $value . "已保存--");
} $output->writeln("============date:" .date("Y-m-d H:i:s") . "采集完成==============");
} }

2. 多线程采集

<?php
/**
* @Notes: 文件描述
* @Interface getCondition
* @Return mixed
* @Author: bqs
* @Time: 2021/4/19 15:28
*/ namespace app\common\command; use think\console\Command;
use think\console\Input;
use think\console\Output;
use think\console\input\Argument;
use think\console\input\Option;
use think\Db;
use think\facade\Hook;
use think\facade\Log;
use QL\QueryList;
use QL\Ext\CurlMulti; class QueryListSpider extends Command
{ protected function configure()
{
$this->setName('query:list')
->setDescription('采集');
} protected function execute(Input $input, Output $output)
{
ini_set('memory_limit', '512M'); $output->writeln("=========date:" . date('Y-m-d H:i:s') . "==============="); // 地址与目录映射
$dirMap = [
"假面骑士" => "https://zhuanlan.zhihu.com/p/376119915",
"龙珠" => "https://zhuanlan.zhihu.com/p/340048917",
"火影忍者" => ["https://zhuanlan.zhihu.com/p/352717188", "https://zhuanlan.zhihu.com/p/393213201", "https://zhuanlan.zhihu.com/p/358228745"],
"海贼王" => ["https://zhuanlan.zhihu.com/p/357683518", "https://zhuanlan.zhihu.com/p/338160632"]
]; // 采集地址
$multiArr = [];
$multiArr = array_reduce(array_values($dirMap), function ($res, $value) {
$res = array_merge($res, (array)$value);
return $res;
}, []); // 采集映射
$multiMap = [];
foreach($dirMap as $key => $value) {
if (!is_array($value)) {
$multiMap[$value] = $key;
} else {
$temp = array_fill_keys($value, $key);
$multiMap = array_merge($multiMap, $temp);
}
} // 开始使用多线程采集
$ql = QueryList::use (CurlMulti::class);
$ql->curlMulti($multiArr)
->success(function (QueryList $ql, CurlMulti $curl, $r) use ($multiMap) { $path = 'E:\2setsoft\1dev\phpstudy_pro\WWW\4test\tensorflowJs\js-ml-code\t7\动漫分类\train\\';
$queryUrl = $r['info']['url'];
$className = $multiMap[$queryUrl] ?? "";
$targetDir = $path . $className;
$path = $targetDir . '\\'; $endFileIndex = 0;
$existFileList = $this->scanFile($targetDir);
if ($existFileList) {
// 取出所有数字文件名最大值
$endFileName = max($existFileList);
$endFileIndex = explode(".", $endFileName)[0];
} $data = $ql->find('.RichText')->find('noscript')->find('img')->attrs('src'); foreach($data as $key => $value) {
$index = $key + 1 + $endFileIndex; $filename = $index < 10 ? str_pad($index, 2, "0", STR_PAD_LEFT) : $index;
$filend = pathinfo($value, PATHINFO_EXTENSION);
$file = file_get_contents($value);
file_put_contents($path . $filename . "." . $filend, $file);
}
})
// 每个任务失败回调
->error(function ($errorInfo, CurlMulti $curl) {
echo "Current url:{$errorInfo['info']['url']} \r\n";
print_r($errorInfo['error']);
})
->start([
// 最大并发数
'maxThread' => 10,
// 错误重试次数
'maxTry' => 5,
]); $output->writeln("============date:" . date("Y-m-d H:i:s") . "采集完成==============");
} // 扫描目录下所有文件
protected function scanFile($path) {
$result = [];
$files = scandir($path);
foreach ($files as $file) {
if ($file != '.' && $file != '..') {
if (is_dir($path . '/' . $file)) {
$this->scanFile($path . '/' . $file);
} else {
$result[] = basename($file);
}
}
}
return $result;
} }

问题解决:

由于普通采集的请求使用 GuzzleHttp 客户端,而多线程采集是 CURL,所以运行时报 curl 状态码 60 错误。

1. 解决方法:

(1). 下载 cacert

下载地址:https://curl.haxx.se/ca/cacert.pem

(2). 修改 php.ini , 并重启

在 php.ini 中找到 curl.cainfo 改为文件的绝对路径如:curl.cainfo =E:\2setsoft\1dev\phpstudy_pro\Extensions\php\php7.4.3nts\cacert.pem

图片训练:

以上的图片已经采集的差不多了,因为博主的图片有限,我也没有再去其他地方找,整个文件夹下的图片在 200 张左右。按理说图片当然是越多越好,但是整个分类标注起来耗时(看文章的配图,应该已经知道有哪几类了吧),所以就这样了。最后就是读取图片转换 Tensor 进行训练,后一篇再具体介绍吧,提醒一下。下一篇需要提前安装 Node, Http-Server,Parcel 工具。

用 Tensorflow.js 做了一个动漫分类的功能(一)的更多相关文章

  1. TensorFlow.js之根据数据拟合曲线

    这篇文章中,我们将使用TensorFlow.js来根据数据拟合曲线.即使用多项式产生数据然后再改变其中某些数据(点),然后我们会训练模型来找到用于产生这些数据的多项式的系数.简单的说,就是给一些在二维 ...

  2. 关于最近在做的一个js全屏轮播插件

    最近去面试了,对方要求我在一个星期内用原生的js代码写一个全屏轮播的插件,第一想法就是跟照片轮播很相似,只是照片轮播是有定义一个宽高度大小已经确定了的容器用来存储所有照片,然后将照片全部左浮动,利用m ...

  3. 做了一个图片等比缩放的js

    做了一个图片等比缩放的js 芋头 发布在view:8447   今天改了一下博客的主题,发现博客主题在ie6下变样了,后来发现是因为某篇文章里的某个图片太大了撑开了容器,导致样式错位,前几天公司需求里 ...

  4. 4-13 Webpacker-React.js; 用React做一个下拉表格的功能: <详解>

    Rails5.1增加了Webpacker: Webpacker essentially is the decisions made by the Rails team and bundled up i ...

  5. 用 JS 做一个数独游戏(二)

    用 JS 做一个数独游戏(二) 在 上一篇博客 中,我们通过 Node 运行了我们的 JavaScript 代码,在控制台中打印出来生成好的数独终盘.为了让我们的数独游戏能有良好的体验,这篇博客将会为 ...

  6. 用 JS 做一个数独游戏(一)

    用 JS 做一个数独游戏(一) 数独的棋盘由 9x9 的方格组成,每一行的数字包含 1 ~ 9 九个数字,并且每一列包含 1 ~ 9 这 9 个不重复的数字,另外,整个棋盘分为 9 个 3x3 的块, ...

  7. 用js给闺女做了一个加减乘除的html

    下班回家用二十分钟给闺女做了一个加减乘除的页面,顺便记录下代码,时间仓促,后期再来修改吧 目录结构 -yq --menu.html --yq.html --yq50.html --yq70.html ...

  8. 用js,css3 做的一个球

    用css3属性很容易做一个立方体,但是要做一个球体,会相对复杂些 原理是:球可以看做是由无数个圆圈构成,然后就可以用圆圈来做球, 下面的例子是我做的一个小球,由72个圆圈组成.如果把每个圆圈的背景颜色 ...

  9. JS 做时钟

    今天,给大家分享一个用JS做的时钟. <!DOCTYPE html><html> <head> <meta charset="utf-8" ...

  10. JS一般般的网页重构可以使用Node.js做些什么(转)

    一.非计算机背景前端如何快速了解Node.js? 做前端的应该都听过Node.js,偏开发背景的童鞋应该都玩过. 对于一些没有计算机背景的,工作内容以静态页面呈现为主的前端,可能并未把玩过Node.j ...

随机推荐

  1. 2022-12-28:有n个黑白棋子,它们的一面是黑色,一面是白色, 它们被排成一行,位置0~n-1上。一开始所有的棋子都是黑色向上, 一共有q次操作,每次操作将位置标号在区间[L,R]内的所有棋子翻

    2022-12-28:有n个黑白棋子,它们的一面是黑色,一面是白色, 它们被排成一行,位置0~n-1上.一开始所有的棋子都是黑色向上, 一共有q次操作,每次操作将位置标号在区间[L,R]内的所有棋子翻 ...

  2. 2022-03-08:给定一棵树的头节点head, 请按照题意,保留节点,没有保留的节点删掉。 树调整完之后,返回头节点。

    2022-03-08:给定一棵树的头节点head, 请按照题意,保留节点,没有保留的节点删掉. 树调整完之后,返回头节点. 答案2022-03-08: 递归.当前节点描黑或者子节点描黑,那就保留:否则 ...

  3. Spring Cloud开发实践(六): 基于Consul和Spring Cloud 2021.0的演示项目

    目录 Spring Cloud开发实践(一): 简介和根模块 Spring Cloud开发实践(二): Eureka服务和接口定义 Spring Cloud开发实践(三): 接口实现和下游调用 Spr ...

  4. 【实践篇】教你玩转JWT认证---从一个优惠券聊起

    引言 最近面试过程中,无意中跟候选人聊到了JWT相关的东西,也就联想到我自己关于JWT落地过的那些项目. 关于JWT,可以说是分布式系统下的一个利器,我在我的很多项目实践中,认证系统的第一选择都是JW ...

  5. Mybatis查询

    查询 查询的数据为单条实体类 使用实体类进行接受即可,或者使用list,map接口均可.后面两者比较浪费 使用实体类接受 mapper接口: User selectUserById(int useri ...

  6. 计蒜客蓝桥杯省赛模拟G

    题目 一天蒜头君得到 n 个字符串 si,每个字符串的长度都不超过 1010. 蒜头君在想,在这 n 个字符串中,以 si 为后缀的字符串有多少个呢? 输入格式 第一行输入一个整数 n. 接下来 n ...

  7. nginx: [emerg] https protocol requires SSL support in /usr/local/nginx/conf/nginx.conf:50

    最近在nginx中配置一个443端口 一.安装nginx 首先得先安装个nginx 1.安装依赖包 # 一键安装上面四个依赖 [root@dex ~]# yum -y install gcc zlib ...

  8. Vue——前端发展史、Vue介绍和使用、插值语法、文本指令、事件指令

    前端的发展史 # 1 HTML(5).CSS(3).JavaScript(ES5.ES6):编写一个个的页面 -> 给后端(PHP.Python.Go.Java) -> 后端嵌入模板语法 ...

  9. Android strings.xml按照key修改

    strings.xml匹配替换 将两个Android项目中的多语言字符串文件(strings.xml)进行比较,如果其中一个项目中包含另一个项目没有的字符,则合并到单一的输出文件,并以 key 在原始 ...

  10. 如何批量修改 GitHub 代码提交作者

    批量修改 GitHub 代码提交作者需要进行以下步骤: 首先,你需要 clone 远程仓库到本地,使用以下命令: git clone <repository-url> ``` 将 `< ...