使用Scrapy框架爬取腾讯新闻

昨晚没事写的爬取腾讯新闻代码，在此贴出，可以参考完善。

# -*- coding: utf-8 -*-

import json

from scrapy import Spider

from scrapy.http import Request

from scrapy.http import Response

from scrapy.http import FormRequest

from scrapy.selector import Selector

from bs4 import BeautifulSoup

from ..items import NewsItem

TencentNewsUrl = 'https://pacaio.match.qq.com/irs/rcd'

# 要闻 https://pacaio.match.qq.com/pc/topNews?callback=__jp0

# https://pacaio.match.qq.com/irs/rcd?cid=108&ext=&token=349ee24cdf9327a050ddad8c166bd3e3&page=1&expIds=&callback=__jp1

# https://new.qq.com/cmsn/20180726/20180726A0QOLA00

# https://new.qq.com/ omn/20180726/20180726A0QOLA.html

class TencentSpider(Spider):

    name = 'tencent'

    def start_requests(self):

        # yield Request(

        #     url='https://pacaio.match.qq.com/pc/topNews?callback=__jp0',

        #     callback=self.parse_contents

        # )

        yield FormRequest(

            url=TencentNewsUrl,

            formdata={

                "cid": "58",

                "token": "c232b098ee7611faeffc46409e836360",

                "ext": "milite",

                "page": "0",

                "expIds": "",

                "callback": "__jp0"

            },

            callback=self.parse_contents,

            meta={

                "page": "0",

                "field": ""

            }

        )

    def parse_contents(self, response: Response):

        try:

            data = json.load(response.text)

        except Exception:

            data = json.loads(response.text[(response.text.find('(') + 1):response.text.rfind(')')])

        # 处理分离网页

        try:

            data = data['data']

        except Exception:

            pass

        for url in data:

            omn = url['vurl']

            if omn.endswith('00') and '/cmsn/' in omn:

                omn = omn.replace('/cmsn/', '/omn/')

                omn = omn[:omn.rfind('00')] + '.html'

                print(omn)

            yield Request(

                url=omn,

                callback=self.parse_news

            )

            break

    def parse_news(self, response: Response):

        news = NewsItem()

        news['url'] = response.url

        soup = BeautifulSoup(response.text, "lxml")

        news['title'] = soup.find('div', class_='LEFT').h1.text

        news['content'] = ''

        article = soup.find_all('p', class_='one-p')

        for sentence in article:

            news['content'] += sentence.text

        return news

使用Scrapy框架爬取腾讯新闻的更多相关文章

Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息
简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息简单的scrapy实战:爬取腾讯招聘北京地区的相关招聘信息系统环境:Fedora22(昨天已安装scrapy环境) 爬取的开始URL:ht ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
『Scrapy』爬取腾讯招聘网站
分析爬取对象初始网址, http://hr.tencent.com/position.php?@start=0&start=0#a (可选)由于含有多页数据,我们可以查看一下这些网址有什么相 ...
使用scrapy框架爬取自己的博文（3）
既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_ ...

随机推荐

C# 基于Directshow.Net lib库 USB摄像头使用DirectShow.NET获取摄像头视频流
https://blog.csdn.net/u010118312/article/details/91766787 https://download.csdn.net/download/u010118 ...
xticks,yticks
原本的图片如下所示: 如果加上这样的语句: import matplotlib.pyplot as plt plt.xticks([]),plt.yticks([]) 显示结果就为:
6、rabbitmq&java代码操作
记住四个注解存: rabbitTemplate.convertAndSend("bw","我要红包"); 取: @Component @RabbitListe ...
CentOS7.6安装Pycharm并添加快捷方式
1.以用户身份登录jiangshan 并建立/home/jiangshan/pycharm文件夹2.下载 pycharm-community-anaconda-2019.1.3.tar.gz 放置在/ ...
Java基础笔试练习（六）
1.在Java中,一个类可同时定义许多同名的方法,这些方法的形式参数个数.类型或顺序各不相同,传回的值也可以不相同.这种面向对象程序的特性称为? A.隐藏 B.覆盖 C.重载 D.Java不支持此特性 ...
在vue中使用swiper组件
第一步:在终端的项目根目录下载安装swiper: cnpm/npm install vue-awesome-swiper --save; 第二步:在程序入口文件main.js中引用: import V ...
C++ 相关问题记录
目录编译链接使用初始化和使用赋值时,调用的函数不同:使用 auto_ptr() 时可能会出现编译错误宏定义不受命名空间的约束 Switch-case 中不能定义变量技巧/注意项多层继承中基类 ...
JAVA实现种子填充算法
种子填充算法原理在网上很多地方都能找到,这篇是继上篇扫描线算法后另一种填充算法,直接上实现代码啦0.0 我的实现只是实现了种子填充算法,但是运行效率不快,如果大佬有改进方法,欢迎和我交流,谢谢! 最后 ...
linux Ubuntu14.04 make编译文件报错：No rule to make target `/usr/lib/libpython2.7.so', needed by `python/_pywraps2.so'. Stop.
错误过程:当“make”编译文件时报错No rule to make target `/usr/lib/libpython2.7.so', needed by `python/_pywraps2.so ...
pycharm中文乱码
python2默认不支持中文,python3支持中文,所以使用python2要注意. 解决方案: 顶部声明一下是utf8编码即可, # encoding=utf8

使用Scrapy框架爬取腾讯新闻

使用Scrapy框架爬取腾讯新闻的更多相关文章

随机推荐

热门专题