PHP抓取豆瓣读书爬虫代码

<?php
//演示地址 http://asizu.sinaapp.com/reptile_douban.php
//数据量不是特别大，没有写抓完数据便停止。  喜欢的朋友拿去自己改改就好了

header("Content-Type:text/html;charset=utf-8");

define("MYSQL_HOST",SAE_MYSQL_HOST_M);

define("MYSQL_NAME","douban");

define("MYSQL_USER",SAE_MYSQL_USER);

define("MYSQL_PASSWORD",SAE_MYSQL_PASS);

define("MYSQL_PORT",SAE_MYSQL_PORT);

$action = $_GET['url'];

if(!empty($action))

{

    $data = getLink($action);

    $data = str_substr('<div class="article">','<div class="aside">',$data);

    $dataArray = explode('<dl>',$data);

    array_splice($dataArray,0,1);

    foreach($dataArray as $key => $item)

    {

        $bookArray[$key]['title']    = str_substr('class="title" target="_blank">','</a>',$item);

        $bookArray[$key]['rating']    = str_substr('<span class="rating_nums">','</span>',$item);

        $bookArray[$key]['book_id']    = str_substr('/subject/','/?from',$item);

        if(!selectBookSaveed($bookArray[$key]['title']))

        {

            insertMysql($bookArray[$key]);

        }

        //$dataArray[$key] = htmlspecialchars($item);

    }

    $page = explode('book?start=',$action);

    $new_url = $page[0] ."book?start=". ($page[1] + 15);

    // var_dump($page);

//    var_dump($bookArray);

}

//获取连接

function getLink($url)

{

    $data = getData($url);

    return $data;

}

//抓取数据的函数

function getData($url)

{

    //初始化

    $ch = curl_init();

    //设置选项，包括URL

    curl_setopt($ch,CURLOPT_URL,$url);

    curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

    curl_setopt($ch,CURLOPT_HEADER,0);

    curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11');

    //执行并获取HTML文档内容

    $output = curl_exec($ch);

    //释放curl句柄

    curl_close($ch);

    //返回数据

    return $output;

}

//保存入库

function insertMysql($dataArray)

{

    $field = "";

    $value = "";

    foreach($dataArray as $key => $item)

    {

        $field .= ",".$key;

        $value .= ",'".$item."'";

    }

    $field = substr($field,1,strlen($field)-1);

    $value = substr($value,1,strlen($value)-1);

    $sql = "INSERT INTO douban (".$field.") VALUES(".$value.")";

    // var_dump($sql);

    // exit;

    $result = mysqlOperation($sql);

    return $result;

}

//查询是否已经录入

function selectBookSaveed($title)

{

    $sql = "SELECT * FROM douban WHERE title = '".$title."'";

    $result = mysqlOperation($sql,"select");

    if(empty($result))

    {

        return false;//未存在

    }

    return true;

}

//数据库操作方法

function mysqlOperation($sql,$method = "query")

{

    $mysqli = new mysqli(

                            SAE_MYSQL_HOST_M,

                            SAE_MYSQL_USER,

                            SAE_MYSQL_PASS,

                            SAE_MYSQL_DB,

                            SAE_MYSQL_PORT

                        );

    if( mysqli_connect_errno() )

        echo 'error';

        // return false;

    if($method == "select")

        return mysqli_fetch_assoc($mysqli->query($sql));

    if($method == "query")

        return $mysqli->query($sql);

}

// 字符串截取函数

function str_substr($start, $end, $str)

{

    $temp = explode($start, $str, 2);

    $content = explode($end, $temp[1], 2);

    return $content[0];

}

?>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<script src="http://ajax.aspnetcdn.com/ajax/jQuery/jquery-1.4.4.min.js"></script>

<script>

$(document).ready(function(){

    if($("#input").val() != ""){

        $("#froms").submit();

    }

});

</script>

<form action="?" method="get" id="froms">

<input id="input" value="<?php echo $new_url; ?>" type="text" name="url">

<input type="submit">

</form>

PHP抓取豆瓣读书爬虫代码的更多相关文章

用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评方法一: #coding=utf-8 ...
基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】
CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Ge ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
哪吒票房超复联4，100行python代码抓取豆瓣短评，看看网友怎么说
<哪吒之魔童降世>这部国产动画巅峰之作,上映快一个月时间,票房口碑双丰收. 迄今已有超一亿人次观看,票房达到42.39亿元,超过复联4,跻身中国票房纪录第三名,仅次于<战狼2> ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
python爬虫：利用正则表达式爬取豆瓣读书首页的book
1.问题描述: 爬取豆瓣读书首页的图书的名称.链接.作者.出版日期,并将爬取的数据存储到Excel表格Douban_I.xlsx中 2.思路分析: 发送请求--获取数据--解析数据--存储数据 1.目 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...

随机推荐

MySQL基础之第15章 MySQL用户管理
15.2.账户管理 15.2.1.登录和退出MySQL服务器 mysql –hhostname|hostIP –P port –u username –p[password] databaseName ...
Java 与无符号那些事儿
最近在使用 Java 作为 WebSocket 客户端连接 Node.js 的 WebSocket 服务器的时候,由于使用的客户端库比较老,所以遇到了字节符号的问题,上网查了一下,看到这篇文章写的很有 ...
提高zxing生成二维码的容错率及zxing生成二维码的边框设置
最近做了一个项目要生成二维码,跟几年前不同,最近大家都喜欢在二维码中间加logo. 加logo倒是不难,两个图片叠一起就是了,但是遇到一个新问题,logo加得太大的话,会导致二维码扫描不出来;加的太小 ...
XML序列化成对象
这个是和ALM上传测试结果结合使用的//把xml序列化成对象以及把对象序列化成xml using System; using System.Data; using System.Configurati ...
【转】linux之tune2fs命令
转自:http://czmmiao.iteye.com/blog/1749232 tune2fs简介 tune2fs是调整和查看ext2/ext3文件系统的文件系统参数,Windows下面如果出现意外 ...
(转)MFC消息机制
转自:http://blog.csdn.net/kongfuxionghao/article/details/35882533
转-sketch技巧
10个帮你UI设计提速的Sketch使用技巧 2015-4-11 09:59| 发布者: yuanxingbbs| 查看: 1129| 评论: 0 选择使用Sketch的理由很多,因为好奇跟风安装 ...
【调试】路由器设置不了静态IP -- clwu
办公室的路由器是IP-COM,原来可以设置静态IP 的,但后来不知道为什么比较长一段时间内设置不了,原来设置的静态IP 也不见了.现象是这样什么都没有. 今天的网络被网管重调整过了,需要重新设置静态 ...
【转】webgame前台开发总结--虽然是10年的文章，但是也有参考价值
一.webgame整个游戏流程: 1.预加载(打开游戏页面后,显示进度条,主要加载前期的登陆和创建角色资源,创建角色资源的加载可以放到进入创建角色界面的时候加载,因为玩家除了第一次进入游戏,其他时间基 ...
openjdk sunjdk区别
使用过LINUX的人都应该知道,在大多数LINUX发行版本里,内置或者通过软件源安装JDK的话,都是安装的openjdk,那么到底什么是openjdk,它与sun jdk有什么关系和区别呢? 历史上的 ...

PHP抓取豆瓣读书爬虫代码

PHP抓取豆瓣读书爬虫代码的更多相关文章

随机推荐

热门专题