Python 爬虫实例（7）—— 爬取新浪军事新闻

我们打开新浪新闻，看到页面如下，首先去爬取一级 url，图片中蓝色圆圈部分

第二zh张图片，显示需要分页，

源代码：

# coding:utf-8

import json

import redis

import time

import requests

session = requests.session()

import logging.handlers

import pickle

import sys

import re

import datetime

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import datetime

# 生成一年的日期

def dateRange(start, end, step=1, format="%Y-%m-%d"):

    strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime

    days = (strptime(end, format) - strptime(start, format)).days

    return [strftime(strptime(start, format) + datetime.timedelta(i), format) for i in xrange(0, days, step)]

def spider():

    date_list = dateRange("2017-01-01", "2018-01-06")[::-1]

    print date_list

    for date in date_list:

        for page in range(1,5):

            #组合url

            url = "http://roll.mil.news.sina.com.cn/col/zgjq/" + str(date)+"_"+ str(page) +".shtml"

            # 伪装请求头

            headers = {

                "Host":"roll.mil.news.sina.com.cn",

                "Cache-Control":"max-age=0",

                "Upgrade-Insecure-Requests":"",

                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36",

                "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

                "Accept-Encoding":"gzip, deflate",

                "Accept-Language":"zh-CN,zh;q=0.8",

                "If-Modified-Since":"Sat, 06 Jan 2018 09:57:24 GMT",

            }

            result = session.get(url=url,headers=headers).content

            #编码格式是 gb2312，使用BeautifulSoup解决编码格式

            soup = BeautifulSoup(result,'html.parser')

            #找到新闻列表

            result_div = soup.find_all('div',attrs={"class":"fixList"})[0]

            #去下换行

            result_replace = str(result_div).replace('\n','').replace('\r','').replace('\t','')

            #正则匹配信息

            result_list = re.findall('<li>(.*?)</li>',result_replace)

            for i in result_list:

                #匹配出来新闻 url， name，time

                news_url = re.findall('<a href="(.*?)" target=',i)[0]

                news_name = re.findall('target="_blank">(.*?)</a>',i)[0]

                news_time = re.findall('<span class="time">\((.*?)\)</span>',i)[0]

                print news_url

                print news_name

                print news_time

spider()

Python 爬虫实例（7）—— 爬取新浪军事新闻的更多相关文章

Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
python2.7 爬虫初体验爬取新浪国内新闻_20161130
python2.7 爬虫初学习模块:BeautifulSoup requests 1.获取新浪国内新闻标题 2.获取新闻url 3.还没想好,想法是把第2步的url 获取到下载网页源代码再去分析源 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...

随机推荐

lvs dr 模型配置详解
前期准备: 两台服务器 note01(lvs服务器) note02(real sever) 1 首先在note01配置子网卡: ifconfig eth0: :2意思是eth0的子接口,随便一个数字就 ...
java接口签名(Signature)实现方案
预祝大家国庆节快乐,赶快迎接美丽而快乐的假期吧!!! 一.前言在为第三方系统提供接口的时候,肯定要考虑接口数据的安全问题,比如数据是否被篡改,数据是否已经过时,数据是否可以重复提交等问题.其中我认为 ...
上海市2019年公务员录用考试笔试合格人员笔试成绩(B类)
考试类别:B类注册编号总成绩注册编号总成绩注册编号总成绩注册编号总成绩 5101919 154.7 5113380 156.5 5126791 133.5 5146138 126.2 ...
linux 学习笔记软件包管理
>查询文件所属软件包 #rpm -qf /usr/share/pixmaps/xplns.png 查询某个文件所属软件包 >查询软件包所包含文件列表 #rpm -ql xplus-3.3. ...
Android Stuido 方法参数 p0,p1
Android Stuido 方法参数 p0,p1 参考文献 https://stackoverflow.com/questions/49219439/incorrect-variable-names ...
elementUI的table组件实现setCurrentRow的滚动条定位效果
在github上咨询了,直接给了代码: https://jsfiddle.net/tk37c5cb/14/
Java -- 内部类（二）
在上一篇博客Java --内部类(一)中已经提过了,java中的内部类主要有四种:成员内部类.局部内部类.匿名内部类.静态内部类. 该文主要介绍这几种内部类. 成员内部类成员内部类也是最普通的内部类 ...
[BZOJ1814]Formula 1
Description: 一个 m * n 的棋盘,有的格子存在障碍,求经过所有非障碍格子的哈密顿回路个数 Hint: $n,m<=12$ Solution: 插头dp模板题,注意要讨论多种 ...
Ubuntu卸载软件
在终端中输入 sudo dpkg --list 查看已安装的软件,得知需要卸载的软件名为<programme> 再输入 sudo apt-get --purge remove <pr ...
BZOJ5177 : [Jsoi2013]贪心的导游
首先预处理出对于每个模数,所有被模数按结果从大到小排序的结果,那么对于一个询问,如果可以在$O(1)$时间内判断某个数字是否出现,则可以$O(1000)$回答. 考虑对序列进行分治,对于区间$[l,r ...

Python 爬虫实例（7）—— 爬取 新浪军事新闻

Python 爬虫实例（7）—— 爬取 新浪军事新闻的更多相关文章

随机推荐

热门专题

Python 爬虫实例（7）—— 爬取新浪军事新闻

Python 爬虫实例（7）—— 爬取新浪军事新闻的更多相关文章