1)③爬取网易It方面部分新闻

 __author__ = 'minmin'

 #coding:utf-8

 import re,urllib,sgmllib,os

 #根据当前的url获取html

 def getHtml(url):

     page = urllib.urlopen(url)

     html = page.read()

     page.close()

     return html

 #根据html获取想要的文章内容

 def func(str):

      result= re.findall(r"<p>([^<>]*)</p>",getHtml(url),re.M)

      artical =''

      for j in result:

          if len(j)<>0:

              j = j.replace("&nbsp;","")

              j = j.replace("<STRONG>","   ")#去掉<STRONG>,换成"     "

              j = j.replace("</STRONG>","   ")#去掉</STROGN>换成"     "

              temp = re.findall(r"Copyright.*?",j,re.M);

              if temp == []:

                  artical = artical + j + '\n'

      return  artical

 #html链接的标签是“a”，链接的属性是“href”，也就是要获得html中所有tag=a，attrs=href 值。

 class URLPaser(sgmllib.SGMLParser):

     def reset(self):

         sgmllib.SGMLParser.reset(self)

         self.urls = []

     def start_a(self,attrs):

         href = [v for k,v in attrs if k == 'href']

         if href:

             self.urls.extend(href)

 IParser = URLPaser()

 socket = urllib.urlopen("http://tech.sina.com.cn/it/")#打开这个网页

 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中

 IParser.feed(socket.read())#分析啦

 reg = 'http://tech.sina.com.cn/it/.*'#这个是用来匹配符合条件的链接，使用正则表达式匹配

 pattern = re.compile(reg)

 os.getcwd()#获得当前文件夹路径

 os.path.sep#当前系统路径分隔符

 #判断文件是否存在

 if os.path.exists('news163_it')==False:

      os.makedirs('news163_it')

 i = 0

 url2 = []

 for url in IParser.urls:#链接都存在urls里

     if pattern.match(url):

         if url not in url2:

             url2.append(url)

             artical = func(url)

             if len(artical)<>0:

                  print url

                  print artical

                  i = i + 1

                  f = open("news163_it/"+ str(i) + '.txt','a+')

                  f.write(artical)

                  f.close()

1)③爬取网易It方面部分新闻的更多相关文章

Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
Python 爬虫实例（4）—— 爬取网易新闻
自己闲来无聊,就爬取了网易信息,重点是分析网页,使用抓包工具详细的分析网页的每个链接,数据存储在sqllite中,这里只是简单的解析了新闻页面的文字信息,并未对图片信息进行解析仅供参考,不足之处请指 ...
selenium+谷歌无头浏览器爬取网易新闻国内板块
网页分析首先来看下要爬取的网站的页面查看网页源代码:你会发现它是由js动态加载显示的所以采用selenium+谷歌无头浏览器来爬取它 1 加载网站,并拖动到底,发现其还有个加载更多 2 模拟点击 ...
使用scrapy爬虫,爬取今日头条首页推荐新闻（scrapy+selenium+PhantomJS）
爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面查看源代码你会发现全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 ...
java爬虫入门--用jsoup爬取汽车之家的新闻
概述使用jsoup来进行网页数据爬取.jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuer ...
用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好
网易商品评论爬取分析网页评论分析进入到网易精选官网,搜索“文胸”后,先随便点进一个商品. 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页Python入门到精通学 ...

随机推荐

SQL Server 2008如何导出带数据的脚本文件
第一步,选中需要导出脚本的数据库,右键选中第二步,选取弹出菜单中的任务-生成脚本选项(会弹出一SQL生成脚本的向导) 第三步,在向导中点击下一步,弹出选择数据库界面(默认是自己之前选中的数据库),把 ...
共享器 TS ERROR WINDOWS-FAILED 错误解决方法
问题:TS ERROR WINDOWS-FAILED 原因:微软操作系统自动更新补丁(KB956572)与终端机软件有冲突. 解决方法: .打开“开始菜单”: .打开“控制面板”: .打开“添加/删 ...
关于FND_PROFILE与FND_GLOBLE[Z]
fnd_global package可以取得一些關於當前login in用戶的信息 fnd_concurrent_requests functions select FND_PROFILE.VAL ...
介绍Foundation框架
开始介绍Foundation框架.OC中的Foundation框架是系统提供了,他就相当于是系统的一套api,和Java中的一些系统jar很相似,又早起的一批人开发的,内部有很多现有的类和功能提供给我 ...
20151226--easyUI
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
Python核心编程读笔 3
第四章 Python对象一.python对象的三个特性: 身份:可用id()函数查看,可以被认为是该对象的内存地址类型:可用type()函数查看值二.标准类型数字整型布尔长整型浮点型 ...
Highcharts使用手册
chart: { type: 'area', ignoreHiddenSeries: false, //如果true,一旦一个系列被隐藏,轴将会扩展剩余的可见系列 }, 这是设置的两个纵坐标轴: yA ...
Centos6.7 安装ReviewBoard2.5.7 问题记录
pip install ReviewBoard 1.修改pip源,默认源网络不畅 pip install -i http://pypi.douban.com/simple simplejson 2.p ...
javascript 常用函数
//获取元素的样式值. function getStyle(elem,name){ if(elem.style[name]){ return elem.style[name]; }else if(el ...
cookie简介
上例子 1.首先要用php创建cookie发送给客户端,利用setcookie()方法即可 <?php /* * * @Authors peng--jun * @Email 1098325951 ...

1)③爬取网易It方面部分新闻

1)③爬取网易It方面部分新闻的更多相关文章

随机推荐

热门专题