【Python网络爬虫三】爬去网页新闻

学弟又一个自然语言处理的项目，需要在网上爬一些文章，然后进行分词，刚好牛客这周的是从一个html中找到正文，就实践了一下。写了一个爬门户网站新闻的程序

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块：

 import re  # 正则表达式

 import bs4  # Beautiful Soup 4 解析模块

 import urllib2  # 网络访问模块

 import News   #自己定义的新闻结构

 import codecs  #解决编码问题的关键 ，使用codecs.open打开文件

 import sys   #1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

 #coding=utf-8

 import re  # 正则表达式

 import bs4  # Beautiful Soup 4 解析模块

 import urllib2  # 网络访问模块

 import News   #自己定义的新闻结构

 import codecs  #解决编码问题的关键 ，使用codecs.open打开文件

 import sys   #1解决不同页面编码问题

 reload(sys)                         #

 sys.setdefaultencoding('utf-8')     #

 # 从首页获取所有链接

 def GetAllUrl(home):

     html = urllib2.urlopen(home).read().decode('utf8')

     soup = bs4.BeautifulSoup(html, 'html.parser')

     pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'

     links = soup.find_all('a', href=re.compile(pattern))

     for link in links:

         url_set.add(link['href'])

 def GetNews(url):

     global NewsCount,MaxNewsCount  #全局记录新闻数量

     while len(url_set) != 0:

         try:

             # 获取链接

             url = url_set.pop()

             url_old.add(url)

             # 获取代码

             html = urllib2.urlopen(url).read().decode('utf8')

             # 解析

             soup = bs4.BeautifulSoup(html, 'html.parser')

             pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'  # 链接匹配规则

             links = soup.find_all('a', href=re.compile(pattern))

             # 获取URL

             for link in links:

                 if link['href'] not in url_old:

                     url_set.add(link['href'])

                     # 获取信息

                     article = News.News()

                     article.url = url  # URL信息

                     page = soup.find('div', {'id': 'page'})

                     article.title = page.find('h1').get_text()  # 标题信息

                     info = page.find('div', {'class': 'article-info'})

                     article.author = info.find('a', {'class': 'name'}).get_text()  # 作者信息

                     article.date = info.find('span', {'class': 'time'}).get_text()  # 日期信息

                     article.about = page.find('blockquote').get_text()

                     pnode = page.find('div', {'class': 'article-detail'}).find_all('p')

                     article.content = ''

                     for node in pnode:  # 获取文章段落

                         article.content += node.get_text() + '\n'  # 追加段落信息

                     SaveNews(article)

                     print NewsCount

                     break

         except Exception as e:

             print(e)

             continue

         else:

             print(article.title)

             NewsCount+=1

         finally:

             # 判断数据是否收集完成

             if NewsCount == MaxNewsCount:

                 break

 def SaveNews(Object):

     file.write("【"+Object.title+"】"+"\t")

     file.write(Object.author+"\t"+Object.date+"\n")

     file.write(Object.content+"\n"+"\n")

 url_set = set()  # url集合

 url_old = set()  # 爬过的url集合

 NewsCount = 0

 MaxNewsCount=3

 home = 'http://baijia.baidu.com/'  # 起始位置

 GetAllUrl(home)

 file=codecs.open("D:\\test.txt","a+") #文件操作

 for url in url_set:

     GetNews(url)

     # 判断数据是否收集完成

     if NewsCount == MaxNewsCount:

         break

 file.close()

新闻文章结构

 #coding: utf-8

 # 文章类定义

 class News(object):

     def __init__(self):

         self.url = None

         self.title = None

         self.author = None

         self.date = None

         self.about = None

         self.content = None

对爬取的文章数量就行统计。

【Python网络爬虫三】爬去网页新闻的更多相关文章

【Python网络爬虫三】爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
Python网络爬虫(三)
AJAX学习 AJAX=Asynchronous JavaScript and XML(异步的 JavaScript 和 XML).通俗来说,AJAX是一种无需加载整个网页的情况下,通过在后台与服务器 ...
python网络爬虫抓取动态网页并将数据存入数据库MySQL
简述以下的代码是使用python实现的网络爬虫,抓取动态网页 http://hb.qq.com/baoliao/ .此网页中的最新.精华下面的内容是由JavaScript动态生成的.审查网页元素与网页 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python网络爬虫之爬取图片
今天使用requests和BeautifulSoup爬取了一些图片,还是很有成就感的,注释可能有误,希望大家多提意见: 方法一:requests import requests from bs4 im ...

随机推荐

jAVA HDU1001题
import java.util.Scanner;public class Main { public static void main(String args[]) { Scanner cin=ne ...
第七篇：web之前端之ajax
前端之ajax 前端之ajax 本节内容 ajax介绍原生js实现ajax jquery实现ajax json 跨域请求 1. ajax介绍 AJAX(Asynchronous Javascri ...
【转】性能测试设计和LR原理的探讨
做了4个迭代的性能测试, 在没有需求的情况下步步艰辛,把代码和框架独立开发从0到一万多行代码的测试工具(脚本),作为性能测试工具佼佼者Lr,我时而拿他作参考,山寨了它很多东西,同时带有很多疑问对它实 ...
elasticsearch学习一、安装和配置
原文链接:http://jingyan.baidu.com/article/48206aead42b53216bd6b372.html ElasticSearch是一个基于Lucene的搜索服务器.它 ...
VS2010常用插件介绍之Javascript插件（一）
引自:http://blog.csdn.net/cyxlzzs/article/details/6583577 今天在写JS时,写到500多行时,感觉代码已经很难看了.想到C#代码都有折叠功能,是不是 ...
js数组&&字符串&&定时器2
一.系统时间对象Date 方法描述 Date() 返回当日的日期和时间. getDate() 从 Date 对象返回一个月中的某一天 (1 ~ 31). getDay() 从 Date 对象返回一周 ...
Css3炫酷总结使用
先从CSS3的选择器说起: E F:所有的子孙元素: E>F: E中的子元素: E+F:E元素之后的最近的选择器: E~F:E中所以后面兄弟元素(CSS3 不包括自己本身,前面也不包括) att ...
不需要软件让Windows7变身WIFI热点
很简单,就是把一台装有windows 7操作系统,并配有无线网卡的电脑变成一台无线路由器或无线AP,以便在没有路由器的环境中实现多台无线终端(比如支持wifi的手机.电脑等设备)共享无线网络.那么我们 ...
20160410javaweb之JDBC---DBUtils框架
DBUtils 1.DbUtils 工具类 2.QueryRunner -- 两行代码搞定增删改查 (1)QueryRunner() --需要控制事务时,使用这组方法 int update(Conne ...
有理数类 Java BigInteger实现
import java.math.BigInteger; public class Rational extends Number implements Comparable { private Bi ...

【Python网络爬虫三】 爬去网页新闻

需求：

程序：

【Python网络爬虫三】 爬去网页新闻的更多相关文章

随机推荐

热门专题

【Python网络爬虫三】爬去网页新闻

【Python网络爬虫三】爬去网页新闻的更多相关文章