Python 爬虫实例（4）—— 爬取网易新闻

自己闲来无聊，就爬取了网易信息，重点是分析网页，使用抓包工具详细的分析网页的每个链接，数据存储在sqllite中，这里只是简单的解析了新闻页面的文字信息，并未对图片信息进行解析

仅供参考，不足之处请指正

# coding:utf-8

import random, re

import sqlite3

import json

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import uuid

import requests

session = requests.session()

def md5(str):

    import hashlib

    m = hashlib.md5()

    m.update(str)

    return m.hexdigest()

def wangyi():

    for i in range(1,3):

        if i ==1:

            k = ""

        else:

            k = "_0" + str(i)

        url = "http://temp.163.com/special/00804KVA/cm_yaowen"  + k + ".js?callback=data_callback"

        print url

        headers = {

            "Host":"temp.163.com",

            "Connection":"keep-alive",

            "Accept":"*/*",

            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER",

            "Referer":"http://news.163.com/",

            "Accept-Encoding":"gzip, deflate, sdch",

            "Accept-Language":"zh-CN,zh;q=0.8",

        }

        result = session.get(url=url,headers=headers).text

        try:

            result1 = eval(eval((json.dumps(result)).replace('data_callback(','').replace(')','').replace(' ','')))

        except:

            pass

        try:

            for i in result1:

                tlink = i['tlink']

                headers2 = {

                        "Host":"news.163.com",

                        "Connection":"keep-alive",

                        "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",

                        "Upgrade-Insecure-Requests":"",

                        "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER",

                        "Accept-Encoding":"gzip, deflate, sdch",

                        "Accept-Language":"zh-CN,zh;q=0.8",

                }

                print "tlinktlinktlinktlink",tlink

                return_data = session.get(url=tlink,headers=headers2).text

                try:

                    soup = BeautifulSoup(return_data, 'html.parser')

                    returnSoup = soup.find_all("div", attrs={"id": "endText"})[0]

                    print returnSoup

                    print "==============================="

                    try:

                        returnList = re.findall('<p>(.*?)</p>',str(returnSoup))

                        content1 = '<-->'.join(returnList)

                    except:

                        content1 =""

                    try:

                        returnList1 = re.findall('<p class="f_center">(.*?)</p>',str(returnSoup))

                        content2 = '<-->'.join(returnList1)

                    except:

                        content2 =""

                    content = content1 +content2

                except:

                    content = ""

                cx = sqlite3.connect("C:\\Users\\xuchunlin\\PycharmProjects\\study\\db.sqlite3", check_same_thread=False)

                cx.text_factory = str

                try:

                    print "正在插入链接   %s   数据" % (url)

                    tlink = i['tlink']

                    title = (i['title']).decode('unicode_escape')

                    commenturl = i['commenturl']

                    tienum = i['tienum']

                    opentime = i['time']

                    print title

                    print tlink

                    print commenturl

                    print tienum

                    print opentime

                    print content

                    url2 = md5(str(tlink))

                    cx.execute("INSERT INTO wangyi (title,tlink,commenturl,tienum,opentime,content,url)VALUES (?,?,?,?,?,?,?)",(str(title), str(tlink), str(commenturl), str(tienum), str(opentime), str(content), str(url2)))

                except Exception as e:

                    print e

                    print "cha ru shi bai "

                cx.commit()

                cx.close()

        except:

            pass

wangyi()

Python 爬虫实例（4）—— 爬取网易新闻的更多相关文章

Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...

随机推荐

MYSQL GDB SHELL
http://blog.163.com/xychenbaihu@yeah/blog/static/132229655201141165216974/
数学图形(2.19) 利萨茹3D曲线
在前面的章节数学图形(1.13) 利萨茹曲线中,写的是二维的利萨茹曲线,这一节,将其变为3D图形. #http://www.mathcurve.com/courbes3d/lissajous3d/li ...
Ubuntu下中文完美解决方案
目标:英文环境下,实现中文的输入和完美显示,解决了粗体和斜体创新点:解决了英文的锯齿问题不足之处:某些数字还有锯齿现象主要参考文章: 修改ttf字体美化显示效果 by cnhnln@linuxf ...
GPGPU OpenCL使用结构体数据
OpenCL编程中可以使用结构体,只需要在核函数kernel中提供同样的结构体申明就可以啦. 如果在主函数中定义了结构体: typedef struct studentNode{ int age; f ...
Asp 将MSXML2.serverXMLHTTP返回的responseBody 内容转换成支持中文编码
参考:ASP四个小技巧,抓取网页:GetBody,字节转字符BytesToBstr,正则表达式测试方法,生成静态页 Function GetBody(weburl) '创建对象 Dim ObjXMLH ...
（转）实现AI中LOD优化技术
LOD(Level Of Detail)是3D渲染中用到的概念,按照wikipedia上的翻译,可以译为“细节层次”,它是一种根据与观察点的距离,来减低物体或者模型的复杂度来提升渲染效率的优化技术,因 ...
机器学习-特征选择 Feature Selection 研究报告
原文:http://www.cnblogs.com/xbinworld/archive/2012/11/27/2791504.html 机器学习-特征选择 Feature Selection 研究报告 ...
JWT token心得
token的组成 token串的生成流程. token在客户端与服务器端的交互流程 Token的优点和思考参考代码:核心代码使用参考,不是全部代码 JWT token的组成头部(Header),格 ...
zend studio 13.6.1 安装+破解+汉化
zend studio 13.6.1 X64 安装+破解+汉化+补丁一.下载相关文件 1.官网原版下载 : http://downloads.zend.com/studio-eclipse/13.6 ...
[javase学习笔记]-8.1 statickeyword之特点
这一节我们来学习java语言中一个新的keyword就是statickeyword. 当然对于每个keyword,我们都要明白的是它有什么作用,怎么用.我们先来看一个样例: class Person ...

Python 爬虫实例（4）—— 爬取网易新闻

Python 爬虫实例（4）—— 爬取网易新闻的更多相关文章

随机推荐

热门专题