Scrapy爬取携程桂林问答

guilin.sql：

CREATE TABLE `guilin_ask` (
  `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
  `question` VARCHAR(255) DEFAULT NULL COMMENT '问题的标题',
  `full_question` VARCHAR(255) DEFAULT NULL COMMENT '问题的详情',
  `keyword` VARCHAR(255) DEFAULT NULL COMMENT '关键字',
  `ask_time` VARCHAR(255) DEFAULT NULL COMMENT '提问时间',
  `accept_answer` TEXT COMMENT '提问者采纳的答案',
  `recommend_answer` TEXT COMMENT '旅游推荐的答案',
  `agree_answer` TEXT COMMENT '赞同数最高的答案',
  PRIMARY KEY (`id`),
  UNIQUE KEY `question` (`question`)
) ENGINE=INNODB DEFAULT CHARSET=utf8 COMMENT='桂林_问答表'

guilin.py：

# -*- coding: utf-8 -*-

import scrapy
from scrapy import Request

from QuestionAndAnswer.items import QuestionandanswerItem
from pyquery import PyQuery as pq

class GuilinSpider(scrapy.Spider):
    name = 'guilin'
    allowed_domains = ['you.ctrip.com']

    def start_requests(self):
        # 重写start_requests方法
        ctrip_url = "http://you.ctrip.com/asks/search/?keywords=%e6%a1%82%e6%9e%97&type=2"
        # 携程~攻略~问答~桂林~已回答问题

        yield Request(ctrip_url, callback=self.list_page)

    def list_page(self, response):
        result = pq(response.text)
        # 调用pyquery.PyQuery
        result_list = result(".cf")
        # 问题列表
        question_urls = []
        # 问题链接列表
        for ask_url in result_list.items():
            question_urls.append(ask_url.attr("href"))
        while None in question_urls:
            question_urls.remove(None)
            # 去除None

        for url in question_urls:
            yield response.follow(url, callback=self.detail_page)

        result.make_links_absolute(base_url="http://you.ctrip.com/")
        # 把相对路径转换成绝对路径
        next_link = result(".nextpage")
        next_url = next_link.attr("href")
        # 下一页
        if next_url is not None:
            # 如果下一页不为空
            yield scrapy.Request(next_url, callback=self.list_page)

    def detail_page(self, response):
        detail = pq(response.text)
        question_frame = detail(".detailmain")
        # 问答框

        for i_item in question_frame.items():
            ask = QuestionandanswerItem()
            ask["question"] = i_item(".ask_title").text()
            ask["full_question"] = i_item("#host_asktext").text()
            ask["keyword"] = i_item(".asktag_oneline.cf").text()
            ask["ask_time"] = i_item(".ask_time").text().strip("发表于")
            ask["accept_answer"] = i_item(".bestanswer_con > div > p.answer_text").text()
            ask["recommend_answer"] = i_item(".youyouanswer_con > div > p.answer_text").text()
            ask["agree_answer"] = i_item("#replyboxid > ul > li:nth-child(1) > div > p.answer_text").text()
            yield ask

items.py：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class QuestionandanswerItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()

    question = scrapy.Field()
    # 问题的标题
    full_question = scrapy.Field()
    # 问题的详情
    keyword = scrapy.Field()
    # 关键字
    ask_time = scrapy.Field()
    # 提问时间
    accept_answer = scrapy.Field()
    # 提问者采纳的答案
    recommend_answer = scrapy.Field()
    # 旅游推荐的答案
    agree_answer = scrapy.Field()
    # 赞同数最高的答案

MySQLPipline.py：

from pymysql import connect

class MySQLPipeline(object):
    def __init__(self):
        self.connect = connect(
            host='192.168.1.108',
            port=3306,
            db='scrapy',
            user='root',
            passwd='Abcdef@123456',
            charset='utf8',
            use_unicode=True)
        # MySQL数据库
        self.cursor = self.connect.cursor()
        # 使用cursor()方法获取操作游标

    def process_item(self, item, spider):
        self.cursor.execute(
            """select * from guilin_ask WHERE question = %s""",
            item['question'])
        # 是否有重复问题
        repetition = self.cursor.fetchone()

        if repetition:
            pass
        # 丢弃

        else:
            self.cursor.execute(
                """insert into guilin_ask(
question, full_question, keyword, ask_time, accept_answer, recommend_answer, agree_answer) 
VALUE (%s, %s, %s, %s, %s, %s, %s)""",
                (item['question'],
                 item['full_question'],
                 item['keyword'],
                 item['ask_time'],
                 item['accept_answer'],
                 item['recommend_answer'],
                 item['agree_answer']
                 ))
            # 执行sql语句，item里面定义的字段和表字段一一对应
            self.connect.commit()
            # 提交
            return item
            # 返回item

    def close_spider(self, spider):
        self.cursor.close()
        # 关闭游标
        self.connect.close()
        # 关闭数据库连接

Scrapy爬取携程桂林问答的更多相关文章

使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中
import requests import json import re import csv import threadpool import time, random from bs4 impo ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...

随机推荐

September 24th 2017 Week 39th Sunday
To live is the rarest thing in the world. Most people exist. That is all. 生活是世间最罕见的事情:生存,却是世间最常见的事情: ...
ZT 人生真的是一场马拉松吗？
中国合伙人:孟晓俊:生活应该是什么样的?自己提出的问题应该由自己来回答,别人的回答是别人的答案,是别人的生活,而你应该过自己的生活,不是别人的生活. 人生真的是一场马拉松吗? 投递人 itwr ...
《面向对象程序设计》c++第四次作业___calculator plus
c++第四次作业 Calculator Plus git上的作业展示 Calculator 2.0 SourceCode in Git PS:这次作业orz感谢某同学用windows的dev c++帮 ...
Memcahce和Redis比较
一.Memcache 1． memecache 把数据全部存在内存之中,断电后会挂掉,数据不能超过内存大小redis有部份存在硬盘上,这样能保证数据的持久性. 2． Memcache ...
iOS: 聊聊 Designated Initializer（指定初始化函数）:NS_DESIGNATED_INITIALIZER
总结:指定函数的调用规则: 初始化函数的调用顺序与初始化顺序相反. 上面关于指定初始化的规则讲了那么多,其实可以归纳为两点: 便利初始化函数只能调用自己类中的其他初始化方法指定初始化函数才有资格调用 ...
redis key/value 出现\xAC\xED\x00\x05t\x00\x05
1.问题现象: 最近使用spring-data-redis 和jedis 操作redis时发现存储在redis中的key不是程序中设置的string值,前面还多出了许多类似\xac\xed\x00\x ...
mac 安装secureCRT
下载 http://www.xue51.com/mac/1632.html 会得到下面的文件: 打开dmg文件: 将SecureCRT移到Applications中,然后点击打开一次(重要): 然后打 ...
virtualbox+vagrant学习-2(command cli)-3-vagrant destroy命令
Destroy 格式: vagrant destroy [options] [name|id] 此命令会停止vagrant管理的正在运行的机器,并销毁在机器创建过程中创建的所有资源.在运行这个命令之后 ...
SSH免密码登录远程linux服务器
Linux下实现SSH无密码验证登陆 ssh配置主机A:10.0.5.199 主机B:10.0.5.198 需要配置主机A无密码登录主机A,主机B 先确保所有主机的防火墙处于关闭状态. 在主机A上执 ...
C++垃圾回收器的实现
一.简单介绍这是一个自己写C++垃圾自己主动回收器,用到的都是标准C++语法.採用了引用计数加mark-sweep的方法.在没有循环引用的情况下,引用计数能够保证垃圾实时得到回收:对于有循环引用的情 ...

Scrapy爬取携程桂林问答

Scrapy爬取携程桂林问答的更多相关文章

随机推荐

热门专题