requests+mongodb爬取今日头条，多进程

 import json

 import os

 from urllib.parse import urlencode

 import pymongo

 import requests

 from bs4 import BeautifulSoup

 from requests.exceptions import ConnectionError

 import re

 from multiprocessing import Pool

 from hashlib import md5

 from json.decoder import JSONDecodeError

 from config import *

 client = pymongo.MongoClient(MONGO_URL, connect=False)

 db = client[MONGO_DB]

 def get_page_index(offset, keyword):

     data = {

         'autoload': 'true',

         'count': 20,

         'cur_tab': 3,

         'format': 'json',

         'keyword': keyword,

         'offset': offset,

     }

     params = urlencode(data)

     base = 'http://www.toutiao.com/search_content/'

     url = base + '?' + params

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except ConnectionError:

         print('Error occurred')

         return None

 def download_image(url):

     print('Downloading', url)

     try:

         response = requests.get(url)

         if response.status_code == 200:

             save_image(response.content)

         return None

     except ConnectionError:

         return None

 def save_image(content):

     file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')

     print(file_path)

     if not os.path.exists(file_path):

         with open(file_path, 'wb') as f:

             f.write(content)

             f.close()

 def parse_page_index(text):

     try:

         data = json.loads(text)

         if data and 'data' in data.keys():

             for item in data.get('data'):

                 yield item.get('article_url')

     except JSONDecodeError:

         pass

 def get_page_detail(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except ConnectionError:

         print('Error occurred')

         return None

 def parse_page_detail(html, url):

     soup = BeautifulSoup(html, 'lxml')

     result = soup.select('title')

     title = result[0].get_text() if result else ''

     images_pattern = re.compile('gallery: JSON.parse\("(.*)"\)', re.S)

     result = re.search(images_pattern, html)

     if result:

         data = json.loads(result.group(1).replace('\\', ''))

         if data and 'sub_images' in data.keys():

             sub_images = data.get('sub_images')

             images = [item.get('url') for item in sub_images]

             for image in images: download_image(image)

             return {

                 'title': title,

                 'url': url,

                 'images': images

             }

 def save_to_mongo(result):

     if db[MONGO_TABLE].insert(result):

         print('Successfully Saved to Mongo', result)

         return True

     return False

 def main(offset):

     text = get_page_index(offset, KEYWORD)

     urls = parse_page_index(text)

     for url in urls:

         html = get_page_detail(url)

         result = parse_page_detail(html, url)

         if result: save_to_mongo(result)

 if __name__ == '__main__':

     pool = Pool()

     groups = ([x * 20 for x in range(GROUP_START, GROUP_END + 1)])

     pool.map(main, groups)

     pool.close()

     pool.join()

requests+mongodb爬取今日头条，多进程的更多相关文章

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
用Ajax爬取今日头条图片集
Ajax原理在用requests抓取页面时,得到的结果可能和浏览器中看到的不一样:在浏览器中可以正常显示的页面数据,但用requests得到的结果并没有.这是因为requests获取的都是原始 ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
使用scrapy爬虫,爬取今日头条首页推荐新闻（scrapy+selenium+PhantomJS）
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
使用python-aiohttp爬取今日头条
http://blog.csdn.net/u011475134/article/details/70198533 原出处在上一篇文章<使用python-aiohttp爬取网易云音乐>中, ...

随机推荐

UIScrollView中的手势
UIScrollView中的手势 UIScrollView自带了两个手势,分别为: UIPanGestureRecognizer UIPinchGestureRecognizer 他们都是readon ...
pyqt5加载网页的简单使用
如下初步使用了pyqt5,构造了一个webview来加载网址,呈现网页. 1.安装pyqt5包,可使用douban的源 pip install pyqt5 -i http://pypi.douban. ...
配置spark集群
配置spark集群 1.配置spark-env.sh [/soft/spark/conf/spark-env.sh] ... export JAVA_HOME=/soft/jdk 2.配置slaves ...
2维FFT算法实现——基于GPU的基2快速二维傅里叶变换
上篇讲述了一维FFT的GPU实现(FFT算法实现——基于GPU的基2快速傅里叶变换),后来我又由于需要做了一下二维FFT,大概思路如下. 首先看的肯定是公式: 如上面公式所描述的,2维FFT只需要拆分 ...
ZT 设计模式六大原则（4）：接口隔离原则
设计模式六大原则(4):接口隔离原则分类: 设计模式 2012-02-27 08:32 17948人阅读评论(21) 收藏举报设计模式classinterfacecstring框架定义:客户 ...
Service Fabric eShop On Containers
Service Fabric承载eShop On Containers 从模块化到微服务化从Pet Shop 到eShop on Container都是Microsoft在技术演进的路径上给开发者展 ...
Intellij IDEA 格式化代码
TensorFlow基础（三）激活函数
(1)激活函数激活函数(Activation function)并不是指这个函数去激活什么,而是指如何把“激活的神经元的特征”通过函数把特征保留映射出来.对输入信息进行非线性变换. 线性模型的最大特 ...
xampp安装及使用时的问题总结
本文主要介绍易错点,具体安装过程可参考链接1 1.首先要以管理员身份运行,否则报错. 2.如果你的网站首页名字不是index,那么你在访问的时候就必须输入你首页的全称. 3.htdocs就是网站的根目 ...
Crontab 学习
分钟小时日期月份星期几整点执行 0 8-22 * * * /usr/bin/php /home/anbaojia/wwwroot/shjn/yii report/sync 查看 cron 执 ...

requests+mongodb爬取今日头条，多进程

requests+mongodb爬取今日头条，多进程的更多相关文章

随机推荐

热门专题