一个Python小白5个小时爬虫经历 【续】
前言
昨天实现了python简单的数据采集之后本来还挺高兴的,结果发现在.NET读取txt文件后反序列化总是报错。具体错误原因好像是从txt读取数据之后会自动加一个隐藏的字符串,没错,肉眼看不见,就导致不是合法的json格式,最终失败。不说了,反序列化浪费了我大量的时间,下面进入正题。
代码重构
问题就出来保存上,所以保存的文件我首先把 .txt 换成 .json 文件,后来在仔细看生成的文档,发现少了中括号[]和每条数据之间的逗号。于是乎,修改后的代码如下。
import match
import os
import datetime
import json def writeToTxt(list_name,file_path):
try:
#这里直接write item 即可,不要自己给序列化在写入,会导致json格式不正确的问题
fp = open(file_path,"w+",encoding='utf-8')
l = len(list_name)
i = 0
#添加左中括号
fp.write('[')
for item in list_name:
#直接将项目write到 json文件中
fp.write(item)
#添加每一项之间的逗号
if i<l-1:
fp.write(',\n')
i += 1
fp.write(']')
#添加右中括号
fp.close()
except IOError:
print("fail to open file") #def getStr(item):
#之前用这段代码处理item,后来发现,不用处理,直接保存反而更好,自己处理了,会导致博客中乱七八糟的字符影响反序列化
# return str(item).replace('\'','\"')+',\n' def saveBlogs():
for i in range(1,2):
print('request for '+str(i)+'...')
blogs = match.blogParser(i,10)
#保存到文件
path = createFile()
writeToTxt(blogs,path+'/blog_'+ str(i) +'.json')
print('第'+ str(i) +'页已经完成')
return 'success' def createFile():
date = datetime.datetime.now().strftime('%Y-%m-%d')
path = '/'+date
if os.path.exists(path):
return path
else:
os.mkdir(path)
return path result = saveBlogs()
print(result)
最终生成了完美的json。下图只粘贴其中一项,当然是我昨天发的那篇啦。PS 前篇地址:http://www.cnblogs.com/panzi/p/6421826.html
转战.NET CORE
终于把数据格式搞定了。下面就是到数据的事情了,很简单,不过在写代码过程中顺便看了一下 .NET Core的文件系统[3]:由PhysicalFileProvider构建的物理文件系统 。然后进行实战。首先,json都存放在在文件中,肯定要遍历文件了。
从那篇博客中copy部分代码,来实现文件系统的访问和解析。
定义IFileManager 接口
public interface IFileManager
{
/// <summary>
/// 读取文件,获取文件内容
/// </summary>
/// <param name="fileHandler"></param>
void HandleFile(Action<string> fileHandler);
}
然后实现接口内容,主要呢,第一,遍历文件夹得到文件,然后输出相应的文件内容。第二,反序列化文本内容转成实体。第三,加入到Elastisearch中。
public IFileProvider FileProvider { get; private set; } public FileManager(IFileProvider fileProvider)
{
this.FileProvider = fileProvider;
} public void HandleFile(Action<string> fileHandler)
{
//通过FileProvider读取文件,遍历
foreach (var fileInfo in this.FileProvider.GetDirectoryContents(""))
{
//读取文件内容(json)
string result = ReadAllTextAsync(fileInfo.Name).Result;
//执行处理
fileHandler(result);
} }
以上为FileManger部分代码。
然后反序列化得到的文本内容。
//遍历已经搜集好的json文档
manager.HandleFile(json =>
{
//反序列化得到实体
var entities = serializer.JsonToEntities<DotNetLive.Search.Entities.CnBlogs.Blog>(json);
//批量添加到ES中
int result = search.IndexMany(entities); Console.WriteLine("加入" + result + "数据");
});
当然,程序启动的时候要注册相应的服务。
public static IServiceProvider RegisterServices() { string folder = DateTime.Now.ToString("yyyy-MM-dd");
var service = new ServiceCollection()
//定位到文件夹,当前日期
.AddSingleton<IFileProvider>(new PhysicalFileProvider($@"D:\{folder}"))
.AddSingleton<IFileManager, FileManager>()
//序列化器
.AddSingleton<ISerializer,CnBlogsSerializer>()
.BuildServiceProvider();
return service;
}
运行结果
至于为什么是180条,因为我在python获取接口的时候写的是 for in range(1,10),每次请求接口返回20条,请求了9次,然后合并成一个json文件存储。
好的,最后在看一下ES中的数据:
总结
纸上得来终觉浅,绝知此事要躬行。这句话一点没错,看和做真是两码事。不过还好,数据采集阶段就告一段落了。不扯了,跑程序去了。小伙伴们下期再见。
github代码参见:https://github.com/dotnetlive/dotnetlive.search/tree/master/src/Tools/cnblogs PS:有兴趣的小伙伴可以加入dotnetlive团队。无薪,可学习,哈哈。
一个Python小白5个小时爬虫经历 【续】的更多相关文章
- 一个Python小白5个小时爬虫经历
前言 最近业余在做一个基于.NET Core的搜索项目,奈何基层代码写好了,没有看起来很华丽的数据供测试.很巧的也是博客搜索,于是乎想到了博客园.C#也能做做页面数据抓取的,不过在博客园看到的大部分都 ...
- 一个Python小白如何快速完成爬虫
很人或多或少都听说过python爬虫,但不知道如何通过python爬虫来爬取自己想要的内容,今天我就给大家说一个爬虫教程来实现自己第一次python爬虫. 环境搭建 既然用python,那么自然少不了 ...
- 一个python小白的学习之路
本人是个网管,在佛山工作,现在已经学习了一段时间python了,还是学开基础,但近段时间有一点的突破出来了,找到了一个很好的自学视频,等自己有能力了就想找一个特训班试试.已经看了视频两个星期了,有小小 ...
- python小白的初步爬虫
前序: 最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗.果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息...巴拉巴拉.好吧,去做吧. 我当时的内心是崩溃的,pyt ...
- 一个python爬虫小程序
起因 深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的 ...
- 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求
第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求 selenium模块 selenium模块为 ...
- 我的第一个python web开发框架(21)——小结
这个小网站终于成功上线,小白除了收获一笔不多的费用外,还得到女神小美的赞赏,心中满满的成就感.这一天下班后,他请老菜一起下馆子,兑现请吃饭的承诺,顺便让老菜点评一下. 小白:老大,在你的指导下终于完成 ...
- python小白入门
阅读目录 一python介绍 二安装python解释器 三第一个python程序 四变量 五用户与程序交互 六基本数据类型 七格式化输出 八基本运算符 九流程控制之if...else 十流程控制之wh ...
- Python小白的数学建模课-A3.12 个新冠疫情数模竞赛赛题与点评
新冠疫情深刻和全面地影响着社会和生活,已经成为数学建模竞赛的背景帝. 本文收集了与新冠疫情相关的的数学建模竞赛赛题,供大家参考,欢迎收藏关注. 『Python小白的数学建模课 @ Youcans』带你 ...
随机推荐
- STM32驱动W25X64存储器
W25X64 是华邦公司推出的大容量 SPI FLASH 产品,W25X64 的容量为 64Mbit(8M),该系列还有 W25Q80/16/32 等.W25X16,W25X32,W25X64分别有 ...
- MySql5.6设置慢查询
---恢复内容开始--- 在my.cnf中 mysqld节点下 #开启慢查询 slow_query_log = ON #设置超时时间 slow_launch_time = 2 #记录日志 slow_q ...
- IOS开发-ObjC-NSDictionary
OC中Foundation框架中有字典类,字典分不可变字典(NSDictionary)和可变字典(NSMutableDictionary),它们的使用如下: 不可变字典: //------------ ...
- 洛谷 P1359 租用游艇
题目描述 长江游艇俱乐部在长江上设置了n 个游艇出租站1,2,-,n.游客可在这些游艇出租站租用游艇,并在下游的任何一个游艇出租站归还游艇.游艇出租站i 到游艇出租站j 之间的租金为r(i,j),1& ...
- java 对象比较
class Book{ private String title ; private double price ; public Book(String title , double pr ...
- Java JDBC连接SQL Server2005错误:通过端口 1433 连接到主机 localhost 的 TCP/IP 连接失败 及sql2008外围服务器
转载:Java JDBC连接SQL Server2005错误:通过端口 1433 连接到主机 localhost 的 TCP/IP 连接失败 错误原因如下: Exception in thread & ...
- Android应用性能优化方案
1.避免创建不必要的对象 2.如果方法用不到成员变量,可以把方法声明为静态(static),这样性能会提高百分之十五到百分之二十 3.避免使用get/set存取字段,可以把字段声明为public直接访 ...
- 破解&屏蔽防止嵌入框架代码 top.location != self.location
<script type="text/javascript"> if (top.location != self.location) top.location = se ...
- plupload 异步上传插件使用心得
plupload 可以不依赖jquery,并且提供了 html5,flash,silverlight,html4 多种上传模式,使用起来比较简单,上一篇博客中介绍了其主要参数哈函数 一.简化用法 &l ...
- 如何使用php session
学会php session可以在很多地方使用,比如做一个后台登录的功能,要让程序记住用户的session,其实很简单,看了下面的文章你就明白了. PHP session用法其实很简单它可以把用户提 ...