利用BeautifulSoup抓取新浪网页新闻的内容
第一次写的小爬虫,python确实功能很强大,二十来行的代码抓取内容并存储为一个txt文本
直接上代码
#coding = 'utf-8' import requests
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding("utf-8") #抓取web页面
url = "http://news.sina.com.cn/china/"
res = requests.get(url)
res.encoding = 'utf-8' #放进soup里面进行网页内容剖析
soup = BeautifulSoup(res.text, "html.parser")
elements = soup.select('.news-item') #抓取需要的内容并且放入文件中
#抓取的内容有时间,内容文本,以及内容的链接
fname = "F:/asdf666.txt"
try:
f = open(fname, 'w')
for element in elements:
if len(element.select('h2')) > 0:
f.write(element.select('.time')[0].text)
f.write(element.select('h2')[0].text)
f.write(element.select('a')[0]['href'])
f.write('\n\n') f.close()
except Exception, e:
print e
else:
pass
finally:
pass
因为这只第一次做的小爬虫,功能很简单也很单一,就是直接抓取新闻页面的部分新闻
然后抓取新闻的时间和超链接
然后按照新闻的顺序整合起来,并且放进文本文件中去存储起来
截取一下效果图,效果很简单,就是一条一条的记录,时间,新闻内容,新闻链接(因为是今天才写的,所以新闻都是今天的)

利用BeautifulSoup抓取新浪网页新闻的内容的更多相关文章
- [Python爬虫] :Selenium +phantomjs 利用 pyquery抓取脚本链接对应的内容
		
抓取上面对应链接的网页的文章的内容 ele = element.attr("onclick") self.driver.execute_script(ele) sub_seleni ...
 - Python 利用 BeautifulSoup 爬取网站获取新闻流
		
0. 引言 介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
 - BeautifulSoup抓取列表页锚文本
		
素闻BeautifulSoup提取效率低,艾玛,第一印象果然是很要命的,反正比Re 和 Lxml 是要慢的,不过就无奈Re的正则折腾来折腾去,没写出来,Lxml 的 Xpath 又用得不好. 不过就这 ...
 - scrapy抓取中国新闻网新闻
		
目标说明 利用scrapy抓取中新网新闻,关于自然灾害滑坡的全部国内新闻:要求主题为滑坡类新闻,包含灾害造成的经济损失等相关内容,并结合textrank算法,得到每篇新闻的关键词,便于后续文本挖掘分析 ...
 - python实现一个栏目的分页抓取列表页抓取
		
python实现一个栏目的分页抓取列表页抓取 #!/usr/bin/env python # coding=utf-8 import requests from bs4 import Beautifu ...
 - Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
		
更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
 - 利用Crowbar抓取网页异步加载的内容 [Python俱乐部]
		
利用Crowbar抓取网页异步加载的内容 [Python俱乐部] 利用Crowbar抓取网页异步加载的内容 在做 Web 信息提取.数据挖掘的过程中,一个关键步骤就是网页源代码的获取.但是出于各种原因 ...
 - 利用Fiddler抓取websocket包
		
一.利用fiddler抓取websockt包 打开Fiddler,点开菜单栏的Rules,选择Customize Rules... 这时会打开CustomRules.js文件,在class Handl ...
 - [Python爬虫] 之二十八:Selenium +phantomjs 利用 pyquery抓取网站排名信息
		
一.介绍 本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...
 
随机推荐
- mysql connector 和 sqlserver ado.net 的区别
			
1,虽然同样是实现了IDataReader接口,但是 对于 MySql.Data.MySqlClient.MySqlDataReader 和 System.Data.SqlClient.SqlDat ...
 - 13 年的 Bug 调试经验总结
			
在<Learning From Your Bugs>一文中,我写了关于我是如何追踪我所遇到的一些最有趣的bug.最近,我回顾了我所有的194个条目(从13岁开始),看看有什么经验教训是我可 ...
 - [AS3.0] FMS改变录制视频的默认地址
			
FMS默认的视频录制或点播的地址是在{FMS-Install-Dir}\applications,如何指向到其他目录. 1.改变applications的目录指向: 在FMS安装目录下找到/conf/ ...
 - webkit.net 浏览器开发
			
webkit.net 浏览器开发: http://www.cnblogs.com/linyijia/p/4045333.html
 - ebs如何将客户化的PL/SQL程序发布到webservice
			
as:cux_gl_hec_iface_soa_pkg. 1.将package声明部分的内容拷贝出来另存为cux_gl_hec_iface_soa_pkg.pls的文件: 2.将该文件上传到服务器上拥 ...
 - mysql load data 乱码的问题
			
新学mysql在用load data导入txt文档时发现导入的内容,select 之后是乱码,先后把表,数据库的字符集类型修改为utf8,但还是一样,最后在 http://bbs.chinaunix. ...
 - Flex数据交互之Remoting
			
一 前言 Flex数据交互常用的有三种方式:WebService.HttpService以及Remoting. WebService方式已在这篇文章中给出,这篇文章主要讲解以Remoting方式进行数 ...
 - Notepad++的xml文本格式化
			
1.需要使用插件 2.使用插件
 - oracle计算是否是同一周
			
函数已经解决跨年问题 select to_char(date'2016-12-31','iW') from dual; select to_char(date'2017-01-01','iW') fr ...
 - Spring知识汇总
			
Spring简介 Spring框架由Rod Johnson开发,2004年发布了Spring框架的第一版.Spring是一个从实际开发中抽取出来的框架,因此它完成了大量开发中的通用步骤,留给开发者的仅 ...