python-requests 简单实现数据抓取

安装包：
　　requests,lxml
request包用于进行数据抓取，
lxml用来进行数据解析
对于对网页内容的处理，由于html本身并非如数据库一样为结构化的查询所见即所得，所以需要对网页的内容进行分析然后进行内容提取，lxml就是用来完成此项工作
在requests中最用的方法为get()方法，通常情况下可以将url做为参数传入进去，对于一些功能比较完善的网站如果存在反爬取数据的功能是则需要设置headers参数内容，内容为一字典类型
可以在浏览器中查看User-Agent字段的内容，设置后requests将在抓取数据时同时提交所设置的头信息以进行浏览器的访问模拟
同时在抓取数据时要注意网站所使用的字符编码，当编码不一至时需要对字符编码进行相应的转换
具体见以下代码注释
#!/usr/bin/python
# encoding: utf-8
import requests
from lxml import etree

url='http://www.chinanews.com/scroll-news/mil/2017/0110/news.shtml'

def getNewUrlList():
    global url
    header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.115 Safari/537.36'}    构造浏览器头信息
    response=requests.get(url,headers=header)   获取数据
    html=response.content.decode("gbk")    解码
    selector=etree.HTML(html)
    contents = selector.xpath('//div[@id="content_right"]/div[@class="content_list"]/ul/li[div]')    使用xpath语法解析获取数据//表示从根开始查找@后跟相应的html属性
    for eachlink in contents:
        url = eachlink.xpath('div/a/@href')[0] if str(eachlink.xpath('div/a/@href')[0]).__contains__("http") else "http://www.chinanews.com"+eachlink.xpath('div/a/@href')[0]
        title = eachlink.xpath('div/a/text()')[0]
        ptime = eachlink.xpath('div[@class="dd_time"]/text()')[0]
        yield (title,url,ptime)

def getNewContent(urlList):
    for title,url,ptime in urlList:
        response=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.115 Safari/537.36'})
        html=response.content.decode("gbk")
        selector=etree.HTML(html)
        title=selector.xpath("//div[@id='cont_1_1_2']/h1/text()")[0]
        source=selector.xpath("//div[@id='cont_1_1_2']/div[@class='left-time']/div[@class='left-t']/text()")[0]
        content=selector.xpath("//div[@id='cont_1_1_2']/div[@class='left_zw']/p/text()")

        i=0
        resultContent=''
        for item in range(0,content.__len__()):
            resultContent+=content[i]
            i+=1
        yield (title,source,resultContent)

if __name__=="__main__":
   urlList= getNewUrlList()
   result= getNewContent(urlList)
   for title,source,content in result:
       print u"标题:%s"%title
       print u"来源：%s"%source
       print u"正文:%s"%content

python-requests 简单实现数据抓取的更多相关文章

网页数据抓取工具，webscraper 最简单的数据抓取教程，人人都用得上
Web Scraper 是一款免费的,适用于普通用户(不需要专业 IT 技术的)的爬虫工具,可以方便的通过鼠标和简单配置获取你所想要数据.例如知乎回答列表.微博热门.微博评论.淘宝.天猫.亚马逊等电商 ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Python 东方财富网-股市行情数据抓取
东方财富网股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎.所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
【Python入门只需20分钟】从安装到数据抓取、存储原来这么简单
基于大众对Python的大肆吹捧和赞赏,作为一名Java从业人员,我本着批判与好奇的心态买了本python方面的书<毫无障碍学Python>.仅仅看了书前面一小部分的我......决定做一 ...
[原创.数据可视化系列之十二]使用 nodejs通过async await建立同步数据抓取
做数据分析和可视化工作,最重要的一点就是数据抓取工作,之前使用Java和python都做过简单的数据抓取,感觉用的很不顺手. 后来用nodejs发现非常不错,通过js就可以进行数据抓取工作,类似jqu ...
Python数据抓取_BeautifulSoup模块的使用
在数据抓取的过程中,我们往往都需要对数据进行处理本篇文章我们主要来介绍python的HTML和XML的分析库 BeautifulSoup 的官方文档网站如下 https://www.crummy.c ...
Python数据抓取（1） —数据处理前的准备
(一)数据抓取概要为什么要学会抓取网络数据? 对公司或对自己有价值的数据,80%都不在本地的数据库,它们都散落在广大的网络数据,这些数据通常都伴随着网页的形式呈现,这样的数据我们称为非结构化数据如 ...

随机推荐

CentOS6（CentOS7）设置静态IP 并且能够上网
链接原文:https://blog.csdn.net/u012453843/article/details/52839105 第一步:在网络连接下有VMnet1和VMnet8两个连接,其中VMnet1 ...
nginx负载均衡fair模块安装和配置
nginx-upstream-fair-master fair模块源码官方github下载地址:https://github.com/gnosek/nginx-upstream-fair说明:如果从 ...
linux的发行版
Linux的不同版本以及应用领域 1.Linux内核及发行版介绍 <1>Linux内核版本内核(kernel)是系统的心脏,是运行程序和管理像磁盘和打印机等硬件设备的核心程序,它提供了一 ...
SDUT OJ 数据结构实验之图论十：判断给定图是否存在合法拓扑序列
数据结构实验之图论十:判断给定图是否存在合法拓扑序列 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Prob ...
如何在SQLServer中处理每天四亿三千万记录的（数据库大数据处理）
首先声明,我只是个程序员,不是专业的DBA,以下这篇文章是从一个问题的解决过程去写的,而不是一开始就给大家一个正确的结果,如果文中有不对的地方,请各位数据库大牛给予指正,以便我能够更好的处理此次业务. ...
GCD BZOJ2818 [省队互测] 数学
题目描述给定整数N,求1<=x,y<=N且Gcd(x,y)为素数的数对(x,y)有多少对. 输入输出格式输入格式: 一个整数N 输出格式: 答案输入输出样例输入样例#1: 复制 4 ...
tornado 07 数据库—ORM—SQLAlchemy—查询
tornado 07 数据库—ORM—SQLAlchemy—查询引言 #上节课使用query从数据库查询到了结果,但是query返回的对象是直接可用的吗 #在query.py内输入一下内容 from ...
composer 创建自己包
服务器环境下创建自己的项目文件初始化composer 打开cmd 窗口,cd 到 backrestore 执行 composer init 命令 D:\phpStudy\WWW\backrestor ...
POJ 2182 Lost Cows (求序列第k大)
题解二分+树状数组显然最和一个数的值就是rank 那么其它数有什么规律? 从后往前匹配rank,我们可以发现第i个数的rank为还没有匹配的rank第(a[i]+1)大的数这可以用树状数组+二 ...
python-继承，父类，子类
class Spell(object): def __init__(self, incantation, name): self.name = name self.incantation = inca ...

python-requests 简单实现数据抓取

python-requests 简单实现数据抓取的更多相关文章

随机推荐

热门专题