selenium+谷歌无头浏览器爬取网易新闻国内板块

网页分析

首先来看下要爬取的网站的页面

查看网页源代码：你会发现它是由js动态加载显示的

所以采用selenium+谷歌无头浏览器来爬取它

1 加载网站，并拖动到底，发现其还有个加载更多

2 模拟点击它，然后再次拖动到底，，就可以加载完整个页面

示例代码

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By

from time import sleep

from lxml import etree

import os

import requests

# 使用谷歌无头浏览器来加载动态js

def main():

    # 创建一个无头浏览器对象

    chrome_options = Options()

    # 设置它为无框模式

    chrome_options.add_argument('--headless')

    # 如果在windows上运行需要加代码

    chrome_options.add_argument('--disable-gpu')

    browser = webdriver.Chrome(chrome_options=chrome_options)

    # 设置一个10秒的隐式等待

    browser.implicitly_wait(10)

    browser.get(url)

    sleep(1)

    # 翻到页底

    browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

    # 点击加载更多

    browser.find_element(By.CSS_SELECTOR, '.load_more_btn').click()

    sleep(1)

    # 再次翻页到底

    browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')

    # 拿到页面源代码

    source = browser.page_source

    browser.quit()

    with open('xinwen.html', 'w', encoding='utf-8') as f:

        f.write(source)

        parse_page(source)

# 对新闻列表页面进行解析

def parse_page(html):

    # 创建etree对象

    tree = etree.HTML(html)

    new_lst = tree.xpath('//div[@class="ndi_main"]/div')

    for one_new in new_lst:

        title = one_new.xpath('.//div[@class="news_title"]/h3/a/text()')[0]

        link = one_new.xpath('.//div[@class="news_title"]/h3/a/@href')[0]

        write_in(title, link)

# 将其写入到文件

def write_in(title, link):

    print('开始写入篇新闻{}'.format(title))

    response = requests.get(url=link, headers=headers)

    tree = etree.HTML(response.text)

    content_lst = tree.xpath('//div[@class="post_text"]//p')

    title = title.replace('?', '')

    with open('new/' + title + '.txt', 'a+', encoding='utf-8') as f:

        for one_content in content_lst:

            if one_content.text:

                    con = one_content.text.strip()

                    f.write(con + '\n')

if __name__ == '__main__':

    url = 'https://news.163.com/domestic/'

    headers = {"User-Agent": 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'}

    if not os.path.exists('new'):

        os.mkdir('new')

    main()

得到结果：

随意打开一个txt:

Scrapy版

wangyi.py

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from happy1.items import Happy1Item

class WangyiSpider(scrapy.Spider):

    name = 'wangyi'

    # allowed_domains = ['https://news.163.com/domestic/']

    start_urls = ['http://news.163.com/domestic/']

    def __init__(self):

        # 创建一个无头浏览器对象

        chrome_options = Options()

        # 设置它为无框模式

        chrome_options.add_argument('--headless')

        # 如果在windows上运行需要加代码

        chrome_options.add_argument('--disable-gpu')

        # 示例话一个浏览器对象(实例化一次)

        self.bro = webdriver.Chrome(chrome_options=chrome_options)

    def parse(self, response):

        new_lst = response.xpath('//div[@class="ndi_main"]/div')

        for one_new in new_lst:

            item = Happy1Item()

            title = one_new.xpath('.//div[@class="news_title"]/h3/a/text()')[0].extract()

            link = one_new.xpath('.//div[@class="news_title"]/h3/a/@href')[0].extract()

            item['title'] = title

            yield scrapy.Request(url=link,callback=self.parse_detail, meta={'item':item})

    def parse_detail(self, response):

        item = response.meta['item']

        content_list = response.xpath('//div[@class="post_text"]//p/text()').extract()

        item['content'] = content_list

        yield item

    # 在爬虫结束后，关闭浏览器

    def close(self, spider):

        print('爬虫结束')

        self.bro.quit()

pipelines.py

class Happy1Pipeline(object):

    def __init__(self):

        self.fp = None

    def open_spider(self, spider):

        print('开始爬虫')

    def process_item(self, item, spider):

        title = item['title'].replace('?', '')

        self.fp = open('news/' + title + '.txt', 'a+', encoding='utf-8')

        for one in item['content']:

            self.fp.write(one.strip() + '\n')

        self.fp.close()

        return item

items.py

import scrapy

class Happy1Item(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title = scrapy.Field()

    content = scrapy.Field()

middlewares.py

    def process_response(self, request, response, spider):

        if request.url in ['http://news.163.com/domestic/']:

            spider.bro.get(url=request.url)

            time.sleep(1)

            spider.bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

            spider.bro.find_element(By.CSS_SELECTOR, '.load_more_btn').click()

            time.sleep(1)

            spider.bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

            page_text = spider.bro.page_source

            return HtmlResponse(url=spider.bro.current_url, body=page_text, encoding='utf-8', request=request)

        else:

            return response

settings.py

DOWNLOADER_MIDDLEWARES = {

   'happy1.middlewares.Happy1DownloaderMiddleware': 543,

}

ITEM_PIPELINES = {

   'happy1.pipelines.Happy1Pipeline': 300,

}

得到结果

总结：

1 其实主要的工作还是模拟浏览器来进行操作。

2 处理动态的js其实还有其他办法。

3 爬虫的方法有好多种，主要还是选择适合自己的。

4 自己的代码写的太烂了。

selenium+谷歌无头浏览器爬取网易新闻国内板块的更多相关文章

如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
Python 爬虫实例（4）—— 爬取网易新闻
自己闲来无聊,就爬取了网易信息,重点是分析网页,使用抓包工具详细的分析网页的每个链接,数据存储在sqllite中,这里只是简单的解析了新闻页面的文字信息,并未对图片信息进行解析仅供参考,不足之处请指 ...
爬虫之图片懒加载, selenium , phantomJs, 谷歌无头浏览器
一.图片懒加载懒加载 : JS 代码是页面自然滚动 window.scrollTo(0,document.body.scrollHeight) (重点) bro.execute_ ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
爬虫之selenium模块;无头浏览器的使用
一,案例爬取站长素材中的图片:http://sc.chinaz.com/tupian/gudianmeinvtupian.html import requests from lxml import ...
利用scrapy抓取网易新闻并将其存储在mongoDB
好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,近期也看了一点mongoDB.顺便小用一下.体验一下NoSQL是什么感觉.言归正传啊.scrapy爬虫主 ...
Python实训day07pm【Selenium操作网页、爬取数据-下载歌曲】
练习1-爬取歌曲列表任务:通过两个案例,练习使用Selenium操作网页.爬取数据.使用无头模式,爬取网易云的内容. ''' 任务:通过两个案例,练习使用Selenium操作网页.爬取数据. 使用无 ...

随机推荐

判断系统是64位还是32位的bat方法
if "%PROCESSOR_ARCHITECTURE%"=="x86" goto x86 if "%PROCESSOR_ARCHITECTURE%& ...
腾讯2017年暑期实习生编程题【算法基础-字符移位】（C++，Python）
算法基础-字符移位时间限制:1秒空间限制:32768K 题目: 小Q最近遇到了一个难题:把一个字符串的大写字母放到字符串的后面,各个字符的相对位置不变,且不能申请额外的空间. 你能帮帮小Q吗? ...
Java Script 学习笔记 (二) Casper JS
1. click() VS mouse.click() 在写自动化脚本要勾选一个复选框时,用casper.mouse.click() 无法选上这个checkbox, 需要用到casper.click( ...
CSS操作笔记
编写css样式:1. 标签的style属性2. 写在head里面 style标签中写样式- id选择区#i1{background-color: #2459a2;height: 48px;}- cla ...
BZOJ_4448_[Scoi2015]情报传递_主席树
BZOJ_4448_[Scoi2015]情报传递_主席树 Description 奈特公司是一个巨大的情报公司,它有着庞大的情报网络.情报网络中共有n名情报员.每名情报员口J-能有若T名(可能没有) ...
毕业样本=[华威大学毕业证书]Warwick原件一模一样证书
华威大学毕业证[微/Q:2544033233◆WeChat:CC6669834]UC毕业证书/联系人Alice[查看点击百度快照查看][留信网学历认证&博士&硕士&海归& ...
ArchLinux 安装五笔输入法
说明自己的笔记本已经全盘做成了ArchLinux系统了,用着还好,苦于常用的五笔输入法在Arch下有点不太好装,参考wiki弄好了,这里简单记录下这里使用ibus-rime 原因有二: ibus- ...
旅行app(游记、攻略、私人定制) | 顺便游旅行H5移动端实例
<顺便游旅行>是一款H5移动端旅行app,提供目的地(国内.国外.周边)搜索.旅游攻略查询.游记分享.私人定制4大模块,类似携程.同程.去哪儿.马蜂窝移动端,只不过顺便游app界面更为简洁 ...
monkey----测试中的要求
测试中的要求: (1)导出的log命名以测试机的imei号为主或者是以测试机的编号为主,这样方便找到测试机,避免出现问题后无法找到机器,难以定位问题. 导出的log文件后缀名以.log命名, ...
前端随笔 - JavaScript中的闭包
前阵子重新复习了一下js基础知识,第一篇博客就以分享闭包心得为开始吧. 首先,要理解闭包,就必须要了解一个概念:作用域链. 作用域链作用域代表着可访问变量的集合,变量分为全局变量和局部变量两种,在函 ...