python获取知乎日报另存为txt文件

前言

拿来练手的，比较简单（且有bug），欢迎交流~

功能介绍

抓取当日的知乎日报的内容，并将每篇博文另存为一个txt文件，集中放在一个文件夹下，文件夹名字为当日时间。

使用的库

re，BeautifulSoup，sys，urllib2

注意事项

1.运行环境是Linux，python2.7.x，想在win上使用直接改一下里边的命令就可以了

2.bug是在处理 “如何正确吐槽”的时候只能获取第一个（懒癌发作了）

3.直接获取（如下）内容是不可以的，知乎做了反抓取的处理

urllib2.urlop(url).read()

所以加个Headers就可以了

4.因为zhihudaily.ahorn.me这个网站时不时挂掉，所以有时候会出现错误

 def getHtml(url):

     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}

     request=urllib2.Request(url,None,header)

     response=urllib2.urlopen(request)

     text=response.read()

     return text

4.在做内容分析的时候可以直接使用re，也可以直接调用BeautifulSoup里的函数（我对正则表达式发怵，所以直接bs），比如

 def saveText(text):

     soup=BeautifulSoup(text)

     filename=soup.h2.get_text()+".txt"

     fp=file(filename,'w')

     content=soup.find('div',"content")

     content=content.get_text()

show me the code

 #Filename:getZhihu.py

 import re

 import urllib2

 from bs4 import BeautifulSoup

 import sys

 reload(sys)

 sys.setdefaultencoding("utf-8")

 #get the html code

 def getHtml(url):

     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}

     request=urllib2.Request(url,None,header)

     response=urllib2.urlopen(request)

     text=response.read()

     return text

 #save the content in txt files

 def saveText(text):

     soup=BeautifulSoup(text)

     filename=soup.h2.get_text()+".txt"

     fp=file(filename,'w')

     content=soup.find('div',"content")

     content=content.get_text()

 #   print content #test

     fp.write(content)

     fp.close()

 #get the urls from the zhihudaily.ahorn.com

 def getUrl(url):

     html=getHtml(url)

 #   print html

     soup=BeautifulSoup(html)

     urls_page=soup.find('div',"post-body")

 #   print urls_page

     urls=re.findall('"((http)://.*?)"',str(urls_page))

     return urls

 #main() founction

 def main():

     page="http://zhihudaily.ahorn.me"

     urls=getUrl(page)

     for url in urls:

         text=getHtml(url[0])

         saveText(text)

 if __name__=="__main__":

     main()

python获取知乎日报另存为txt文件的更多相关文章

用python爬整本小说写入txt文件
没太完善,但是可以爬下整本小说.日后会写入数据库,注释不要太在意,都是调试的.入库估计这周之后,这次爬的是笔趣阁的第1150本书,大家只要可以改get_txt()里数字就行,查到自己要看哪本书一改就可 ...
python基础===获取知乎标题时候，文件编码失败的总结
总结一下,关于获取到的信息编码失败. 刚才在执行代码的时候,发现一个问题: 然后修改代码如下: '''爬取知乎界面的标题''' import requests import re import sys ...
python获取数据网页数据并创建文件夹保存（基于python3.6）
from urllib.parse import urljoin import urllib.request from bs4 import BeautifulSoup import os impor ...
python保存二维列表到txt文件，读取txt文件里面的数据转化为二维列表
源码: # 读文件里面的数据转化为二维列表 def Read_list(filename): file1 = open(filename+".txt", "r" ...
Python疫情爬取输出到txt文件
在网上搬了一个代码,现在不适用了,改了改 import requestsimport jsondef Down_data(): url = 'https://view.inews.qq.com/g2/ ...
Python 获取脚本路径以及脚本所在文件夹路径
import os script_path = os.path.realpath(__file__) script_dir = os.path.dirname(script_path)
Java以流的方式将指定文件夹里的.txt文件全部复制到另一文件夹，并删除原文件夹中所有.txt文件
import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.Fi ...
web端自动化——Python读取txt文件、csv文件、xml文件
1.读取txt文件 txt文件是我们经常操作的文件类型,Python提供了以下几种读取txt文件的方式. 1)read(): 读取整个文件. 2)readline(): 读取一行数据. 3)readl ...
Python新建动态命名txt文件
# -*- coding: utf-8 -*- import os,sys,time fname=r"D:\01-学习资料\python" def GetNowTime():#获取 ...

随机推荐

【自己给自己题目做】：如何在Canvas上实现魔方效果
最终demo -> 3d魔方体验方法: 浮动鼠标找到合适的位置,按空格键暂停选择要翻转的3*3模块,找到相邻两个正方体,鼠标点击第一个正方体,并且一直保持鼠标按下的状态直到移到第二个正方体后 ...
EF 相见恨晚的Attach方法
一个偶然的机会,让我注意了EF 的Attach方法,于是深入了解让我大吃一惊在我所参与的项目中所有的更新操作与删除操作都是把原对象加载出来后,再做处理,然后再保存到数据库,这样的操作不缺点在于每一次 ...
各地IT薪资待遇讨论
作为一个搞.net开发的程序员,在北京混了三年半,最近准备辞职到上海找工作.由于对上海的IT行业还不是很了解,在这里想让上海的同行们说下你们的情况,以方便我对自己在上海的定位,当然,其余城市的的同行们 ...
青瓷引擎使用心得——修改引擎的loading界面
一. 修改引擎的Loading界面之使用进度条显示1. 双击打开引擎包中的lib/qc-loading-debug.js,如下图所示: 2. 只需要修改qici.init函数即可改变loading界面 ...
Bootstrap系列 -- 5. 文本对齐方式
一. 文本对齐样式 .text-left:左对齐 .text-center:居中对齐 .text-right:右对齐 .text-justify:两端对齐二. 使用方式 <p class=&q ...
年中review
1. 做好已知的各种项目,争取能成立固定团队 (项目一期争取能在本月上线)2. 横向扩展技术学习,了解各种技术,加强技术素养(从Server到前端,现在要关注的知识点越来越多,fighting...) ...
Windows7 x64配置 Apache2 + PHP5 + MySQL5
1:相关软件下载: Apache HTTP Server 版本:(httpd-2.2.25-win32-x86-openssl-0.9.8y) PHP ...
中继器、集线器(HUB)、网桥、交换机、路由器比较
中继器或集线器既不能隔离冲突域又不能隔离广播域,网桥或交换机只能隔离冲突域不能隔离广播域,路由器既能隔离冲突域又能隔离广播域,为什么?[解析] 首先要清楚什么是冲突域和广播域,当一块网卡发送信息时有可 ...
WinForm程序执行JS代码的多种方法以及使用WebBrowser与JS交互
方法一使用微软官方组件Interop.MSScriptControl 1.msscript.ocx下载的地址 http://www.microsoft.com/downloads/details ...
HTTP Pipeline
什么是HTTP Pipeline http管线化是一项实现了多个http请求但不需要等待响应就能够写进同一个socket的技术,仅有http1.1规范支持http管线化,1.0并不支持:采用管线化的请 ...

python获取知乎日报另存为txt文件

python获取知乎日报另存为txt文件的更多相关文章

随机推荐

热门专题