class:Dataserver

string serverIP
string serverPassword
string sqlAccount
string sqlPassword
bool DataUpdate(int id, string key, string content)
#用来更新数据,id用来定位更新的位置 key是要更新的字段 content是要更新的内容
#需要详细考虑多线程的同时调用以及错误处理
setServerIP(string)
setServerPassword(string)
setSqlAccount(string)
setSqlPassword(string)
bool tryToConn()
#尝试连接 返回账户信息设置是否正确
bool checkIfDeal(int id)
#查看是否已经处理过了
void sentSolr( ? )
#用来连接solr服务器
#提供必要相关操作 如果有必要 可以进行拆分

class:Crawler

	#可以爬下来数据并且储存到数据库里
string [] startingURLs
void addstartingURLs()string;

class: DataAnalysis

	#完成对于数据的分析工作
#多线程
run()
#处理数据
grab()
asscording to type:
pdfHandler() / htmlHandler() / wordHandler()
grab()
#从数据库随机抓取一个文件
pdfHandler()
#处理pdf文档
。。。
write();
htmlHandler()
#处理html文档
。。。
write();
wordHandler()
处理word文档
。。。
write();
write()
Dataserver 实例
string translator(string aim, string type)
#如果type是0 英译汉 1:汉译英
htmlContentExtraction()
#从html里面提取文本信息出来
wordContentExtraction()
#从word文档里面提取文本信息出来
pdfContentExtraction()
#从pdf里面提取文本信息出来
string denoising(type,string)
#根据类型输入 从文本中删除无关字符 专一化处理
string keyWordSegment(string)
#用词频统计的方法从文本输入中提取关键词出来

tips:

  1. 考虑线程安全
  2. 统一错误输出
  3. 对于需要标准化的东西一致写到readme里面

数据处理项目Beta阶段软件架构建议的更多相关文章

  1. 【软工项目Beta阶段】博客目录

    绝不划水队Beta冲刺阶段博客目录 一.Scrum Meeting 第十周会议记录 第十一周会议记录 二.测试报告 Beta阶段测试报告 三.习得的软工原理/方法/技能? (1)在进行OUC-Mark ...

  2. ASE19团队项目 beta阶段 model组 scrum1 记录

    本次会议于12月2日,18时30分在微软北京西二号楼sky garden召开,持续25分钟. 与会人员:Jiyan He, Kun Yan, Lei Chai, Linfeng Qi, Xueqing ...

  3. 【软工项目Beta阶段】第11周Scrum会议博客

    第十一周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc ...

  4. 【软工项目Beta阶段】第10周Scrum会议博客

    第十周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc- ...

  5. ASE19团队项目beta阶段Backend组 scrum6 记录

    本次会议于12月12日,19:30在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Zhikai Chen, Lihao Ran, Xin Kang 请假人员:Hao Wang 每 ...

  6. ASE19团队项目 beta阶段 model组 scrum report list

    scrum 1 scrum 2 scrum 3 scrum 4 scrum 5 scrum 6 scrum 7

  7. ASE19团队项目 beta阶段 model组 scrum7 记录

    本次会议于12月10日,19时30分在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  8. ASE19团队项目 beta阶段 model组 scrum6 记录

    本次会议于12月9日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  9. ASE19团队项目 beta阶段 model组 scrum5 记录

    本次会议于12月6日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

随机推荐

  1. 【C语言学习】-05 二维数组、字符串数组、多维数组

    ⼆二维数组.字符串数组.多维数组

  2. K2与OData和Swagger集成,从任何设备无需代码获取数据

    K2近期宣布获得了DData和Swagger REST的支持,这件事情究竟有多好呢? K2与OData和Swagger的集成,保障K2 Blackpearl的用户能建立基于工作流和表单的解决方案,最重 ...

  3. Deployment failed due to an error in FastDev assembly synchronization.

    在编译的时候发生Assembly synchronization error,显示信息为:Deployment failed due to an error in FastDev assembly s ...

  4. GET,POST——简述

    本文主要对GET与POST基本区别进行汇总并掌握. HTTPHTTP(即超文本传输协议)是现代网络中最常见和常用的协议之一,设计它的目的是保证客户机和服务器之间的通信.HTTP 的工作方式是客户端与服 ...

  5. 《java中局部变量和成员变量的区别》

    class Car { String color; int number; void run() { System.out.println(color+"::"+number); ...

  6. iOS对象序列化

    系统对象的归档我就不介绍了,这个不复杂,自己看一下就会了. 我在这里主要介绍自定义对象的归档. Sample.h文件 // //  Sample.h //  Serialization // //   ...

  7. poj1837 dp

    //Accepted 2176 KB 47 ms //杠杆平横的条件:sum(c[i]*sum(g[j]))=0 // 所有的hook到原点的距离乘它上面挂着的物体的重量和的和为0 //对于一个hoo ...

  8. C#移动无标题栏窗体的四种代码

    第一种采用,需注意窗体上的控件是否把窗体覆盖了...MouseDown.MouseMove.MouseUp事件应该是鼠标所处位置最顶层的控件的事件在窗体的类中声明两个变量private Point m ...

  9. Ogre碰撞检测

    转自:http://blog.csdn.net/weiqubo/article/details/7108363 Ogre采用树桩管理场景中的各种"元素"(摄像机.灯光.物体等),所 ...

  10. Python学习路程day5

    冒泡排序 将一个不规则的数组按从小到大的顺序进行排序 data = [10,4,33,21,54,3,8,11,5,22,2,1,17,13,6] #第一次循环,最后一个数字不需要循环,因为最大值已经 ...