php使用pthreads v3多线程的抓取新浪新闻信息

我们使用pthreads，来写一个多线程的抓取页面小程序，把结果存到数据库里。

数据表结构如下：

CREATE TABLE `tb_sina` (

  `id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT 'ID',

  `url` varchar(256) DEFAULT '' COMMENT 'url地址',

  `title` varchar(128) DEFAULT '' COMMENT '标题',

  `time` datetime DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP COMMENT '时间',

  PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='sina新闻';

代码如下：

<?php

class DB extends Worker

{

    private static $db;

    private $dsn;

    private $root;

    private $pwd;

    public function __construct($dsn, $root, $pwd)

    {

        $this->dsn = $dsn;

        $this->root = $root;

        $this->pwd = $pwd;

    }

    public function run()

    {

        //创建连接对象

        self::$db = new PDO($this->dsn, $this->root, $this->pwd);

        //把require放到worker线程中，不要放到主线程中，不然会报错找不到类

        require './vendor/autoload.php';

    }

    //返回一个连接资源

    public function getConn()

    {

        return self::$db;

    }

}

class Sina extends Thread

{

    private $name;

    private $url;

    public function __construct($name, $url)

    {

        $this->name = $name;

        $this->url = $url;

    }

    public function run()

    {

        $db = $this->worker->getConn();

        if (empty($db) || empty($this->url)) {

            return false;

        }

        $content = file_get_contents($this->url);

        if (!empty($content)) {

            //获取标题，地址，时间

            $data = QL\QueryList::Query($content, [

                'tit' => ['.c_tit > a', 'text'],

                'url' => ['.c_tit > a', 'href'],

                'time' => ['.c_time', 'text'],

            ], '', 'UTF-8', 'GB2312')->getData();

            //把获取的数据插入数据库

            if (!empty($data)) {

                $sql = 'INSERT INTO tb_sina(`url`, `title`, `time`) VALUES';

                foreach ($data as $row) {

                    //修改下时间，新浪的时间格式是这样的04-23 15:30

                    $time = date('Y') . '-' . $row['time'] . ':00';

                    $sql .= "('{$row['url']}', '{$row['tit']}', '{$time}'),";

                }

                $sql = rtrim($sql, ',');

                $ret = $db->exec($sql);

                if ($ret !== false) {

                    echo "线程{$this->name}成功插入{$ret}条数据\n";

                } else {

                    var_dump($db->errorInfo());

                }

            }

        }

    }

}

//抓取页面地址

$url = 'http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=';

//创建pool池

$pool = new Pool(5, 'DB', ['mysql:dbname=test;host=192.168.33.226', 'root', '']);

//获取100个分页数据

for ($ix = 1; $ix <= 100; $ix++) {

    $pool->submit(new Sina($ix, $url . $ix));

}

//循环收集垃圾，阻塞主线程，等待子线程结束

while ($pool->collect()) ;

$pool->shutdown();

由于使用到了QueryList,大家可以通过composer进行安装。

composer require jaeger/querylist

不过安装的版本是3.2，在我的php7.2下会有问题，由于each()已经被废弃，所以修改下源码，each()全换成foreach()就好了。

运行结果如下：

数据也保存进了数据库

当然大家也可以再次通过url，拿到具体的页面内容，这里就不做演示了，有兴趣的可以自已去实现。

php使用pthreads v3多线程的抓取新浪新闻信息的更多相关文章

【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python抓取新浪新闻数据（二）
以下是抓取的完整代码(抓取了网页的title,newssource,dt,article,editor,comments)举例: 转载于:https://blog.51cto.com/2290153/ ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
python抓取新浪首页的小例子
参考廖雪峰的python教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0 ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

随机推荐

mybatis 获取insert返回的主键
在我们开发过程中,在插入数据到数据库时,很多时候都需要把其主键返回,这里就说一下mybatis是怎么获取的. 其中mysql和oracle是不同的做法,因为mysql本身就提供字段自增的属性,而ora ...
1.13.Mark1
[经济学人]双语阅读:律师事务所标价更高收益更少 Business 商业报道 Law firms 律师事务所 Charging more, getting less 标价更高,收益更少 L ...
Hibernate 再接触多对一与一对多
多对一单向关联数据库设计: 错误做法:在多方加外键在多这一方加外键第一种 annotation Group.java package com.bjsxt.hibernate; import ja ...
sql server连接字符串与tcp/ip开启
连接字符串1:Data Source=localhost,1433;User ID=sa;Password=123;Initial Catalog=test;Min Pool Size=1;Max P ...
30种提高mysql处理速度的方法
1.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描. 2.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉 ...
EMbedding
FNN模型:非端到端输入 --> 特征onehot --->FM 模型--->输出每个特征权重及因子值 ----> 输入神经网络 ----> 输出每个预测值此为一 ...
tomcat架构分析(valve机制)
关于tomcat的内部逻辑单元的存储空间已经在相关容器类的blog里阐述了.在每个容器对象里面都有一个pipeline及valve模块. 它们是容器类必须具有的模块.在容器对象生成时自动产生.Pipe ...
springboot 集成 redis
导入maven依赖  <dependency> <groupId>org.springframework.bo ...
multi_compile
[multi_compile] Used to compile the shader code multiple times with different preprocessor directi ...
如何使用eclipse创建JAVA项目并写一个简单的HelloWorld
输入项目名称点击完成(Finish) 原文地址:https://blog.csdn.net/qq_36798713/article/details/79530056

php使用pthreads v3多线程的抓取新浪新闻信息

php使用pthreads v3多线程的抓取新浪新闻信息的更多相关文章

随机推荐

热门专题