python抓取头条文章

python抓取头条美文并存储到mongodb

# Author:song

from multiprocessing import Pool

from urllib.parse import urlencode

import requests

import json

from requests import RequestException

from bs4 import BeautifulSoup

import re

import pymongo

client = pymongo.MongoClient('localhost',connect=False)

db = client['toutiaowenzhang']

def get_index(offset):

    data = {

        'offset': offset,

        'format': 'json',

        'keyword': '美文',

        'autoload': 'true',

        'count': 20,

        'cur_tab': 1,

        'from':'search_tab'

    }

    url = 'https://www.toutiao.com/search_content/?'+urlencode(data)

    response = requests.get(url)

    try:

        if response.status_code == 200:

            return response.text

        else:

            return None

    except RequestException:

        return None

def get_urls(html):

    data = json.loads(html)

    if data and 'data' in data.keys():

        for item in data.get('data'):

            yield item.get('article_url')

def get_index_detail(url):

    response = requests.get(url)

    try:

        if response.status_code == 200:

            return response.text

        else:

            return None

    except RequestException:

        return None

def parse_detail(html):

    try:

        soup = BeautifulSoup(html,'lxml')

        title = soup.select('title')[0].get_text()

        compile_allarticle= re.compile('content.*?&lt;div&gt(.*?)&lt;/div&gt;',re.S)

        allarticle = re.findall(compile_allarticle,html)

        # article =re.sub('(&lt;.*?&lt;span&gt;)','',allarticle[0])#正则匹配上不需要的那部分

        article =re.sub('[a-zA-Z0-9/#;&\._]','',str(allarticle)).strip()#直接把字母数字全部替换

        data = {

            'title':title,

            'article':article

        }

        return data

    except TypeError:#解决出现了404界面

        pass

def save_to_mongodb(result):

    if db['toutiaowenzhang'].insert(result):

        print('successful')

    else:

        print('fail')

def main(offset):

    html = get_index(offset)

    items = get_urls(html)

    for item in items:

        if item:

            ab = get_index_detail(item)

            result = parse_detail(ab)

            save_to_mongodb(result)

if __name__=='__main__':

    groups = [x*20 for x in range(3)]

    pool = Pool()

    pool.map(main,groups)

python抓取头条文章的更多相关文章

python抓取月光博客的全部文章而且依照标题分词存入mongodb中
猛击这里:python抓取月光博客的全部文章
使用python抓取CSDN关注人的全部公布的文章
# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import ...
使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤数据的采集和获取数据的清洗,抽取,变形和装载数据的分析,探索和预测 ...
用python抓取智联招聘信息并存入excel
用python抓取智联招聘信息并存入excel tags:python 智联招聘导出excel 引言:前一阵子是人们俗称的金三银四,跳槽的小朋友很多,我觉得每个人都应该给自己做一下规划,根据自己的进步 ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
Python抓取小说
Python抓取小说前言这个脚本命令MAC在抓取小说写,使用Python它有几个码. 代码 # coding=utf-8 import re import urllib2 import chard ...
Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
python抓取网页例子
python抓取网页例子最近在学习python,刚刚完成了一个网页抓取的例子,通过python抓取全世界所有的学校以及学院的数据,并存为xml文件.数据源是人人网. 因为刚学习python,写的代码 ...

随机推荐

Java中Iterator类的详细介绍
迭代器模式:就是提供一种方法对一个容器对象中的各个元素进行访问,而又不暴露该对象容器的内部细节. 概述 Java集合框架的集合类,我们有时候称之为容器.容器的种类有很多种,比如ArrayList.Li ...
Java实现 LeetCode 19删除链表的倒数第N个节点
19. 删除链表的倒数第N个节点给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点. 示例: 给定一个链表: 1->2->3->4->5, 和 n = 2. 当 ...
java实现第七届蓝桥杯平方圈怪
平方圈怪题目描述如果把一个正整数的每一位都平方后再求和,得到一个新的正整数. 对新产生的正整数再做同样的处理. 如此一来,你会发现,不管开始取的是什么数字, 最终如果不是落入1,就是落入同一个循环 ...
unittest单元测试框架入门及应用
一.简介 unittest是Python单元测试框架.unittest它支持自动化测试,在测试中使用setup(初始化)和shutdown(关闭销毁)操作,组织测试用例为套件(批量运行),以及把测试 ...
ProxySQL简介原理及读写分离应用
MySQL-ProxySQL中间件简介同类型产品 MySQL Route:是现在MySQL官方Oracle公司发布出来的一个中间件. Atlas:是由奇虎360公发的基于MySQL协议的数据库中间件 ...
neo4j导入csv文件
neo4j导入csv文件关于neo4j的安装官网和网上博客提供了n中安装的方法,这里不再赘述: 普通安装: https://cloud.tencent.com/developer/article/ ...
MySQL数据库字符集和排序规则的四个级别
MySQL数据库字符集和排序规则有四个级别的默认设置:服务器,数据库,表和列. 最初,服务器字符集和排序规则取决于启动mysqld时使用的选项.可以使用 --character-set-server该 ...
SpringBoot 2.3 整合最新版 ShardingJdbc + Druid + MyBatis
今天项目不忙,想搞一下shardingJDBC分库分表看看,主要想实现以下几点: 舍弃xml配置,使用.yml或者.properties文件+java的方式配置spring. 使用 Druid 作为数 ...
EIGRP-15-其他和高级的EIGRP特性-1-路由器ID
与很多协议一样, EIGRP也使用了路由器ID (RTD)的概念,用一个4字节的编号来标识某个路由器实例.每个地址家族实例拥有自已独立的RID.工程师可以在一台路由器上,为多个EIGRP进程和地址家族 ...
跟着视频学python，Day1
python介绍发展史安装 Hello World程序变量用户输入模块初识数据类型初识条件表达式if...elif...else 循环表达式while 循环表达式for python介绍 ...

python抓取头条文章

python抓取头条文章的更多相关文章

随机推荐

热门专题