class:Dataserver

string serverIP
string serverPassword
string sqlAccount
string sqlPassword
bool DataUpdate(int id, string key, string content)
#用来更新数据,id用来定位更新的位置 key是要更新的字段 content是要更新的内容
#需要详细考虑多线程的同时调用以及错误处理
setServerIP(string)
setServerPassword(string)
setSqlAccount(string)
setSqlPassword(string)
bool tryToConn()
#尝试连接 返回账户信息设置是否正确
bool checkIfDeal(int id)
#查看是否已经处理过了
void sentSolr( ? )
#用来连接solr服务器
#提供必要相关操作 如果有必要 可以进行拆分

class:Crawler

	#可以爬下来数据并且储存到数据库里
string [] startingURLs
void addstartingURLs()string;

class: DataAnalysis

	#完成对于数据的分析工作
#多线程
run()
#处理数据
grab()
asscording to type:
pdfHandler() / htmlHandler() / wordHandler()
grab()
#从数据库随机抓取一个文件
pdfHandler()
#处理pdf文档
。。。
write();
htmlHandler()
#处理html文档
。。。
write();
wordHandler()
处理word文档
。。。
write();
write()
Dataserver 实例
string translator(string aim, string type)
#如果type是0 英译汉 1:汉译英
htmlContentExtraction()
#从html里面提取文本信息出来
wordContentExtraction()
#从word文档里面提取文本信息出来
pdfContentExtraction()
#从pdf里面提取文本信息出来
string denoising(type,string)
#根据类型输入 从文本中删除无关字符 专一化处理
string keyWordSegment(string)
#用词频统计的方法从文本输入中提取关键词出来

tips:

  1. 考虑线程安全
  2. 统一错误输出
  3. 对于需要标准化的东西一致写到readme里面

数据处理项目Beta阶段软件架构建议的更多相关文章

  1. 【软工项目Beta阶段】博客目录

    绝不划水队Beta冲刺阶段博客目录 一.Scrum Meeting 第十周会议记录 第十一周会议记录 二.测试报告 Beta阶段测试报告 三.习得的软工原理/方法/技能? (1)在进行OUC-Mark ...

  2. ASE19团队项目 beta阶段 model组 scrum1 记录

    本次会议于12月2日,18时30分在微软北京西二号楼sky garden召开,持续25分钟. 与会人员:Jiyan He, Kun Yan, Lei Chai, Linfeng Qi, Xueqing ...

  3. 【软工项目Beta阶段】第11周Scrum会议博客

    第十一周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc ...

  4. 【软工项目Beta阶段】第10周Scrum会议博客

    第十周会议记录 小组GitHub项目地址https://github.com/ouc-softwareclass/OUC-Market 小组Issue地址https://github.com/ouc- ...

  5. ASE19团队项目beta阶段Backend组 scrum6 记录

    本次会议于12月12日,19:30在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Zhikai Chen, Lihao Ran, Xin Kang 请假人员:Hao Wang 每 ...

  6. ASE19团队项目 beta阶段 model组 scrum report list

    scrum 1 scrum 2 scrum 3 scrum 4 scrum 5 scrum 6 scrum 7

  7. ASE19团队项目 beta阶段 model组 scrum7 记录

    本次会议于12月10日,19时30分在微软北京西二号楼sky garden召开,持续10分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  8. ASE19团队项目 beta阶段 model组 scrum6 记录

    本次会议于12月9日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

  9. ASE19团队项目 beta阶段 model组 scrum5 记录

    本次会议于12月6日,19时30分在微软北京西二号楼sky garden召开,持续20分钟. 与会人员:Jiyan He, Lei Chai, Linfeng Qi, Xueqing Wu, Kun ...

随机推荐

  1. bzoj 2301 莫比乌斯反演

    对于给出的n个询问,每次求有多少个数对(x,y),满足a≤x≤b,c≤y≤d,且gcd(x,y) = k,gcd(x,y)函数为x和y的最大公约数. 这里题目意思很明显 对于要求的f[n] = sig ...

  2. Rhel6-lvs配置文档

    系统环境: rhel6 x86_64 iptables and selinux disabled 相关网址:http://zh.linuxvirtualserver.org/ yum仓库配置: [rh ...

  3. 关于equals和hashCode

    equals()和hashCode()是Object类的两个函数,重要性可见一斑,不过我们平时使用却未必能深入理解他们.本文从java doc触发,讲到它们与哈希表的关系,再到具体的实现,就我目前掌握 ...

  4. DotNetBar v12.1.0.0 Fully Cracked

    更新信息: http://www.devcomponents.com/customeronly/releasenotes.asp?p=dnbwf&v=12.1.0.0 如果遇到破解问题可以与我 ...

  5. java基础之 集合

    一.ArrayList和Linkedlist的区别 1.ArrayList是基于数组,LinkedList基于链表实现. 对ArrayList和LinkedList而言,在列表末尾增加一个元素所花的开 ...

  6. RPI学习--环境搭建_默认启动桌面/终端修改

    参见:http://elinux.org/RPi_raspi-config 首次运行Raspbian会自动进入设置,往后也可以重新进入设置: $ sudo raspi-config 选项3 Enabl ...

  7. C# 跨线程操作控件(简洁)

                                              C# 跨线程操作控件 .net 原则上禁止跨线程访问控件,因为这样可能造成错误的发生.解决此问题的方法有两个: 第一 ...

  8. hdu 2027

    ps:发现语文理解能力不行也是醉醉的....是每个测试实例空行....空!行!不是空格! 还有就是gets才能吸收空格,而scanf不能. 代码: #include "stdio.h&quo ...

  9. .NET快速开发平台(DevExpress)免费下载

    Express开发的eXpressApp Framework为简单快速实现商业应用的提供了有效的手段.强大的模块化结构支持跨平台的特定域扩展.典型应用实例包括:商业/销售/客户关系管理系统,项目,文档 ...

  10. VS调试Ajax

    VS调试Ajax: 1.ashx在后台处理程序中设定断点 2.触发AJAX 3.F12打开浏览器调试,搜索找到ajax调用的JS,设置断点,在浏览器中单步调试,会自动进入后台处理程序,然后就可以调试后 ...