网易新网 spider

# -*- coding: utf-8 -*-

import os

import sys

import urllib.request

import requests

import re

from lxml import etree

def StringListSave(save_path, filename, slist):

    if not os.path.exists(save_path):

        os.makedirs(save_path)

    path = save_path+"/"+filename+".txt"

    with open(path, "w+") as fp:

        for s in slist:

            fp.write("%s\t\t%s\n" % (s[0].encode("utf8"), s[1].encode("utf8")))

def Page_Info(myPage):

    '''Regex'''

    mypage_Info = re.findall(r'<div class="titleBar" id=".*?"><h2>(.*?)</h2><div class="more"><a href="(.*?)">.*?</a></div></div>', myPage, re.S)

    return mypage_Info

def New_Page_Info(new_page):

    '''Regex(slowly) or Xpath(fast)'''

    # new_page_Info = re.findall(r'<td class=".*?">.*?<a href="(.*?)\.html".*?>(.*?)</a></td>', new_page, re.S)

    # # new_page_Info = re.findall(r'<td class=".*?">.*?<a href="(.*?)">(.*?)</a></td>', new_page, re.S) # bugs

    # results = []

    # for url, item in new_page_Info:

    #     results.append((item, url+".html"))

    # return results

    dom = etree.HTML(new_page)

    new_items = dom.xpath('//tr/td/a/text()')

    new_urls = dom.xpath('//tr/td/a/@href')

    assert(len(new_items) == len(new_urls))

    return zip(new_items, new_urls)

def Spider(url):

    i = 0

    print ("downloading ", url)

    myPage = requests.get(url).content.decode("gbk")

    # myPage = urllib.request.urlopen(url).read().decode("gbk")

    myPageResults = Page_Info(myPage)

    save_path = u"网易新闻抓取"

    filename = str(i)+"_"+u"新闻排行榜"

    StringListSave(save_path, filename, myPageResults)

    i += 1

    for item, url in myPageResults:

        print ("downloading ", url)

        new_page = requests.get(url).content.decode("gbk")

        # new_page = urllib.request.urlopen(url).read().decode("gbk")

        newPageResults = New_Page_Info(new_page)

        filename = str(i)+"_"+item

        StringListSave(save_path, filename, newPageResults)

        i += 1

if __name__ == '__main__':

    print ("start")

    start_url = "http://news.163.com/rank/"

    Spider(start_url)

    print ("end")

网易新网 spider的更多相关文章

淘宝网购物车jquery源码和网易新用户注册页面表单验证的练习
淘宝网购物车源码: <html lang="en"> <head> <meta charset="UTF-8"> <t ...
php大力力 [040节] 买了一天域名，整了一天后台，新网后台不懂啊
php大力力 [040节] 买了一天域名,整了一天后台,新网后台不懂啊］］］还有万网那些域名要备案,备案,备案中...................wqnmlgb 今天摩托车的前后轮被扎了,tnn ...
新网注册域名如何转向其他(如花生壳)DNS（不会报错，已经转入成功）
最近在玩域名,发现相比较来说,新网的域名注册费用相对廉价好多. 但是我以前是用花生壳的,用惯了花生壳,就觉得新网的域名管理界面很不适应,并不是新网的不好,而是习惯了花生壳. 那么如何将新网注册的域名D ...
H1B工作签证紧俏 “中签率”低对中国留学生影响大-中新网
H1B工作签证紧俏 "中签率"低对中国留学生影响大-中新网 H1B工作签证紧俏 "中签率"低对中国留学生影响大
寻访上海西服定制店_Enjoy·雅趣频道_财新网
寻访上海西服定制店_Enjoy·雅趣频道_财新网寻访上海西服定制店
PHP域名whois查询代码(数据源万网、新网)
对于whois查询,数据来自万网.新网,数据也比较权威,需要的朋友可以参考下. 万网 whois(使用的接口为万网提供合法接口) function whois_hichina($domain) { ...
彻底卸载网易UU网游加速器的方法
昨天跟朋友一起玩游戏,网速感觉不怎么好就下了一个免费的网易UU加速器来给对战平台加速,结果加速了以后网速更差,我晕,于是想卸载,可这个加速器口只有一个exe文件,不用安装,但在第一次加速时记得安装了一 ...
独立博客开张！有关读书、GTD和IT方面的内容将发布在新网站上
2015年自己建个独立博客http://www.shenlongbin.com,以后与读书.GTD和IT技术有关的主题都放在个人博客中,2015年计划基本制定,请移步到这里. 感谢博客园提供了如此优秀 ...
React-Native（五）：React Native之Text学习
本章节主要学习Text的布局,仿照网易新网: 代码: /** * Sample React Native App * https://github.com/facebook/react-native ...

随机推荐

FTP主动模式和被动模式的区别（转）
dd by zhj: 一般使用被动模式,在命令行下,被动模式的格式是:ftp -p (yinservice_env) ajian@ubuntu-desk:~$ ftp -pftp> 之前在用命令 ...
gitlab小结
部署Gitlab环境完整记录(我用的是11版本的gitlab,为了后面不出现bug,请选择11) gitlab启用https的配置 gitlab强制修改密码 https://www.cnblogs.c ...
composer错误提示Cloning failed using an ssh key for authentication的解决方法
早上ytkah在测试laravel用composer安装一些插件时出现了一些错误,提示如下,是github的ssh密匙认证错误,提示要重新生成token,然后保存在/root/.config/comp ...
使用python实现日志功能
Python脚本日志系统 Python通过logging模块提供日志功能,关于logging模块的使用网络上已经有很多详细的资料,这里要分享的是怎样在实际工程中使用日志功能. 假设要开发一个自动化 ...
cmd项目目录结构以及配置文件的升级编写
一.项目的目录结构: bin:执行文件夹 config:自定义配置文件 lib:公共的模块或者类文件 src:核心业务逻辑代码二.配置文件的编写 1)config代码如下 from lib.conf ...
SAP 创建 component
1: 进入x3c 系统,输入 T-CODE BSP_WD_CMPWB 2: 输入以Z开头的组件名. 点击create using wizard 3: 输入应用属性 4: 定义 bol mod ...
【LeetCode每天一题】Divide Two Integers(两整数相除)
Given two integers dividend and divisor, divide two integers without using multiplication, division ...
js和java的参数传递方式实际都是一样的，都是按值传递
只不过要注意的是字符串类型在java中是对象,在js是基本数据类型,作为参数传递的时候是拷贝值,
Adobe Acrobat 9 Pro序列号
其实只删除c:\Program Files\Common Files\Adobe\Adobe PCD\cache目录下的cache.db文件也是可以的,然后重新打开Adobe ,输入序列号1118-4 ...
Permission denied: user=root, access=WRITE, inode="/":hadoopuser:supergroup:drwxr-xr-x
提示往HDFS写文件是不容许的. 在conf/hdfs-site.xml中加入: <property> <name>dfs.permissions</name> & ...

网易新网 spider

网易新网 spider的更多相关文章

随机推荐

热门专题