数据处理项目Beta阶段软件架构建议
class:Dataserver
string serverIP
string serverPassword
string sqlAccount
string sqlPassword
bool DataUpdate(int id, string key, string content)
#用来更新数据,id用来定位更新的位置 key是要更新的字段 content是要更新的内容
#需要详细考虑多线程的同时调用以及错误处理
setServerIP(string)
setServerPassword(string)
setSqlAccount(string)
setSqlPassword(string)
bool tryToConn()
#尝试连接 返回账户信息设置是否正确
bool checkIfDeal(int id)
#查看是否已经处理过了
void sentSolr( ? )
#用来连接solr服务器
#提供必要相关操作 如果有必要 可以进行拆分
class:Crawler
#可以爬下来数据并且储存到数据库里
string [] startingURLs
void addstartingURLs()string;
class: DataAnalysis
#完成对于数据的分析工作
#多线程
run()
#处理数据
grab()
asscording to type:
pdfHandler() / htmlHandler() / wordHandler()
grab()
#从数据库随机抓取一个文件
pdfHandler()
#处理pdf文档
。。。
write();
htmlHandler()
#处理html文档
。。。
write();
wordHandler()
处理word文档
。。。
write();
write()
Dataserver 实例
string translator(string aim, string type)
#如果type是0 英译汉 1:汉译英
htmlContentExtraction()
#从html里面提取文本信息出来
wordContentExtraction()
#从word文档里面提取文本信息出来
pdfContentExtraction()
#从pdf里面提取文本信息出来
string denoising(type,string)
#根据类型输入 从文本中删除无关字符 专一化处理
string keyWordSegment(string)
#用词频统计的方法从文本输入中提取关键词出来
tips:
- 考虑线程安全
- 统一错误输出
- 对于需要标准化的东西一致写到readme里面
数据处理项目Beta阶段软件架构建议的更多相关文章
- 【软工项目Beta阶段】博客目录
绝不划水队Beta冲刺阶段博客目录 一.Scrum Meeting 第十周会议记录 第十一周会议记录 二.测试报告 Beta阶段测试报告 三.习得的软工原理/方法/技能? (1)在进行OUC-Mark ...
- ASE19团队项目 beta阶段 model组 scrum1 记录
本次会议于12月2日,18时30分在微软北京西二号楼sky garden召开,持续25分钟. 与会人员:Jiyan He, Kun Yan, Lei Chai, Linfeng Qi, Xueqing ...
- 【软工项目Beta阶段】第11周Scrum会议博客
第十一周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc ...
- 【软工项目Beta阶段】第10周Scrum会议博客
第十周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc- ...
- ASE19团队项目beta阶段Backend组 scrum6 记录
本次会议于12月12日,19:30在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Zhikai Chen, Lihao Ran, Xin Kang 请假人员:Hao Wang 每 ...
- ASE19团队项目 beta阶段 model组 scrum report list
scrum 1 scrum 2 scrum 3 scrum 4 scrum 5 scrum 6 scrum 7
- ASE19团队项目 beta阶段 model组 scrum7 记录
本次会议于12月10日,19时30分在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...
- ASE19团队项目 beta阶段 model组 scrum6 记录
本次会议于12月9日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...
- ASE19团队项目 beta阶段 model组 scrum5 记录
本次会议于12月6日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...
随机推荐
- IT公司100题-2-设计带min函数的stack
问题描述: 定义栈的数据结构,要求添加一个min 函数,能够得到栈的最小元素. 要求函数min.push 以及pop 的时间复杂度都是O(1). 双倍空间实现: 保存2个栈,分别是元素和当前最小值 ...
- 进制转换器(十进制转n进制)
#include<stdio.h> #include<stdlib.h> #define MAXSIZE 100 /*链栈类型定义*/ typedef struct node ...
- springMVC文件上传(转)
原文链接: http://www.cnblogs.com/lonecloud/p/5989905.html 在Spring-mvc.xml注入bean 1 <!-- 配置文件上传,如果没有使用文 ...
- SQLSERVER数据库中批量导入数据的几种方法
第一:使用Select Into 语句 如果企业数据库都是采用SQL Server数据库的话,则可以利用select into语句实现数据的导入. select into语句的作用是把数据从另外一个数 ...
- <button>使用注意问题
最近在项目的上传功能下(IE8)发现了如下的错误: 2015-08-13 09:14:03,396 WARN [WARN] [http-8080-5] : Handler execution re ...
- hdu 2064
ps:分析发现,要移动n个到最左端,首先要移动n-1个从A到C,然后从C到A,然后再从A到C,然后中间是把大盘从A到C,两步.递推公式自然就是a[n]=3*a[n-1]+2 代码: #include ...
- javascript正则表达式替换字符串
var reg = /^per_list(.*)[\d]{1,}(.*)/;var str = "per_listAmtApril1.value";var replaceStr = ...
- php生成图片
//生成图片,第一个参数宽,第二个高 1.$image = imagecreatetruecolor(100,25); //生成颜色,当第一次调用生成颜色的方法,是生成背景颜色 2.$backgrou ...
- python3爬虫再探之豆瓣影评数据抓取
一个关于豆瓣影评的爬虫,涉及:模拟登陆,翻页抓取.直接上代码: import re import time import requests import xlsxwriter from bs4 imp ...
- Bad Hair Day_单调栈
Description Some of Farmer John's N cows (1 ≤ N ≤ 80,000) are having a bad hair day! Since each cow ...