Python写网络爬虫爬取腾讯新闻内容

最近学了一段时间的Python，想写个爬虫，去网上找了找，然后参考了一下自己写了一个爬取给定页面的爬虫。

Python的第三方库特别强大，提供了两个比较强大的库，一个requests, 另外一个BeautifulSoup，这两个库目前只是会用，其他的还不太了解，网上给了一个BeautifulSoup文档的链接，特别方便，不会的直接查(中文版的)，还有一个关于requests的。

在使用这些第三方库之前要导入

import requests

from bs4 import BeautifulSoup

写这个爬虫首先要获得该网页的html代码，然后用BeautifulSoup库进行解析，然后再分析一下腾讯新闻的html结构

这个是获取网页的html，为了方便使用，将它封装成一个函数

def getHTMLText(url):

    try:

        r = requests.get(url, timeout = 30)

        r.raise_for_status()

        #r.encoding = 'utf-8'

        return r.text

    except:

        return ""

其中，raise_for_status()方法在非成功时产生一个异常，即只要返回的请求代码状态status_code不是200，就产生一个异常

现在分析一下腾讯新闻的html结构

在chrome浏览器下，直接进去新闻之后，右键题目检查就可以定位到题目所在的html代码，如下图

然后会看到<h1>标签内，它的上一级标签是div，并且class="hd"，BeautifulSoup提供了一个CSS选择器，直接调用select方法即可，具体怎么用请查看文档，文档部分如图：

所以代码就可以写

def getContent(url):

    html = getHTMLText(url)

    # print(html)

    soup = BeautifulSoup(html, "html.parser")

    title = soup.select("div.hd > h1")

    print(title[0].get_text())

    time = soup.select("div.a_Info > span.a_time")

    print(time[0].string)

    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")

    print(author[0].get_text())

    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")

    for para in paras:

        if len(para) > 0:

            print(para.get_text())

            print()

其中select返回的是一个列表，所以打印的时候要有下标元素，由于段落是有多个段，所以要用for循环把他们依次取出来

关于select的用法，还是文档讲的比较详细

完整代码如下（爬取http://news.qq.com/a/20170504/012032.htm网页新闻，并保存到文件中）

#此代码主要是从给定腾讯新闻网页中爬取新闻的题目，时间，正文，作者

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    try:

        r = requests.get(url, timeout = 30)

        r.raise_for_status()

        #r.encoding = 'utf-8'

        return r.text

    except:

        return ""

def getContent(url):

    html = getHTMLText(url)

    # print(html)

    soup = BeautifulSoup(html, "html.parser")

    title = soup.select("div.hd > h1")

    print(title[0].get_text())

    time = soup.select("div.a_Info > span.a_time")

    print(time[0].string)

    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")

    print(author[0].get_text())

    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")

    for para in paras:

        if len(para) > 0:

            print(para.get_text())

            print()

    #写入文件

    fo = open("text.txt", "w+")

    fo.writelines(title[0].get_text() + "\n")

    fo.writelines(time[0].get_text() + "\n")

    for para in paras:

        if len(para) > 0:

            fo.writelines(para.get_text() + "\n\n")

    fo.writelines(author[0].get_text() + '\n')

    fo.close()

    #将爬取到的文章用字典格式来存

    article = {

        'Title' : title[0].get_text(),

        'Time' : time[0].get_text(),

        'Paragraph' : paras,

        'Author' : author[0].get_text()

    }

    print(article)

def main():

    url = "http://news.qq.com/a/20170504/012032.htm"

    getContent(url);

main()

Python写网络爬虫爬取腾讯新闻内容的更多相关文章

用python写一个爬虫——爬取性感小姐姐
忍着鼻血写代码今天写一个简单的网上爬虫,爬取一个叫妹子图的网站里面所有妹子的图片. 然后试着先爬取了三页,大概有七百多张图片吧!各个诱人的很,有兴趣的同学可以一起来爬一下,大佬级程序员勿喷,简单爬虫 ...
用Python写网络爬虫第二版
书籍介绍书名:用 Python 写网络爬虫(第2版) 内容简介:本书包括网络爬虫的定义以及如何爬取网站,如何使用几种库从网页中抽取数据,如何通过缓存结果避免重复下载的问题,如何通过并行下载来加速数据 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
笔记之《用python写网络爬虫》
1 .3 背景调研 robots. txt Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站 ...
使用Scrapy框架爬取腾讯新闻
昨晚没事写的爬取腾讯新闻代码,在此贴出,可以参考完善. # -*- coding: utf-8 -*- import json from scrapy import Spider from scrap ...
Python爬虫---爬取腾讯动漫全站漫画
目录操作环境网页分析明确目标提取漫画地址提取漫画章节地址提取漫画图片编写代码导入需要的模块获取漫画地址提取漫画的内容页提取章节名获取漫画源网页代码下载漫画图片下载结果完整 ...

随机推荐

Linux HugePage 特性
HugePage,就是指的大页内存管理方式.与传统的4kb的普通页管理方式相比,HugePage为管理大内存(8GB以上)更为高效.本文描述了什么是HugePage,以及HugePage的一些特性. ...
下载网页视频音频方法（djyeye为例）
方法一: 三步操作: 选择media即可. m4a即为音频实际地址. 方法二: 方法三: 遨游浏览器感谢知乎 https://www.zhihu.com/question/26938393
logstash 中配置GeoIP解析地理信息
logstash中配置的GeoIP的数据库解析ip了,这里是用了开源的ip数据源,用来分析客户端的ip归属地.官网在这里:MAXMIND 下载GeoLiteCity数据库 wget http://ge ...
[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数
11. 机器学习系统的设计觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...
Codeforces 807 A Is it rated?
http://codeforces.com/problemset/problem/807/A A. Is it rated? time limit per test 2 se ...
区间->点，点->区间，线段树优化建图+dijstra Codeforces Round #406 (Div. 2) D
http://codeforces.com/contest/787/problem/D 题目大意:有n个点,三种有向边,这三种有向边一共加在一起有m个,然后起点是s,问,从s到所有点的最短路是多少? ...
分块+二分，统计对数 CDOJ
http://acm.uestc.edu.cn/#/problem/show/1157 数列(seq) Time Limit: 3000/1000MS (Java/Others) Memory ...
vim如何粘贴
刚开始vim的学习之旅,在进行粘贴操作时遇到了麻烦. 教程上粘贴的命令是p,但我发现该命令只适用于从vim到vim的复制(p未必就仅仅局限于此,但我目前所了解到的情况如此),当我从网上复制了一段代码想 ...
C++ 的getline问题
在用c++的getline函数的时候碰到两个问题,总结如下: 1.有时候写程序的时候我们会发现getline(cin,str);这样的语句是不会执行,而是直接跳过的, 一般的解决方法是getline一 ...
HDP安全之集成kerberos/LDAP、ranger（knox自带LDAP）
----------------------目录导航见左上角------------------------------- 环境 HDP 3.0.1.0 (已有) JDK 1.8.0_91 (已有 ...

Python写网络爬虫爬取腾讯新闻内容

Python写网络爬虫爬取腾讯新闻内容的更多相关文章

随机推荐

热门专题