结对同学博客链接

本次作业博客链接

github项目地址

具体分工

我主要负责用python写爬虫部分,他负责C++部分

PSP表格

解题思路

代码的核心思路是利用爬虫,爬取论文网址,之后吧对应信息(标题和摘要)写入文件,然后利用上次的WordCount代码把文件读进去然后进行分析,并且要加上权重分析,之后便是统计词频,然后这次的作业还新加了一个功能叫做词项统计,在不断询问大佬之后,大佬说用队列容器,把检测到的合法单词压入队尾,如果单词不合法就清空,确认词项之后再输出队列。

部分代码展示

代码组织与内部实现设计



爬虫部分

爬虫爬取论文地址

#定义一个函数,用来爬取网页内容
def Web(www):
try:
w = requests.get(www)
w.raise_for_status()
w.encoding = w.apparent_encoding
except:
print("fail!!!")
temp = w.text
wz = BeautifulSoup(temp,"html.parser")
return wz www = "http://openaccess.thecvf.com/CVPR2018.py"
wz = getWeb(www)

简单处理一下标签,获取标题和摘要,然后写入文件

#定义一个函数,用来论文页面内容
def info(paperLink):
www = "http://openaccess.thecvf.com/" + paperLink
wz = Web(www)
#标签
bq=re.compile('</?\w+[>]*>')
#消除
title =bq.sub('', str(wz.find('div',id="papertitle"))).strip()
abstract = bq.sub('',str(wz.find('div',id="abstract"))).strip()
return title,abstract

C++部分

词组划分部分代码

void Count(string tline, int maxn, int start,int quanzhong)
{
for (int i = start; i < tline.length(); i++)
{ int count = 0;//计数
int charcounts = 0;//字符数
int numflag = 0;//判断是否数字
for (int k = i;; k++)//判断是否是单词
{
if (tline[k] >= 'a'&&tline[k] <= 'z'&&numflag == 0)
{charcounts++;count++;}//小写字母
else if (tline[k] >= 'A'&&tline[k] <= 'Z'&&numflag == 0)
{charcounts++;count++;}//大写字母
else if (tline[k] >= '0'&&tline[k] <= '9')
{count++;numflag = 1;}//出现数字
else break;
}
if (charcounts >= 4) //记录
{ char words[100] = { "\0" };
//存储单词
for (int k = i; k < i + count; k++)
{
words[k - i] = tline[k];
}
string s = words;
b.push_back(s);
s = "\0";
if (b.size() == maxn)//队列以满
{
int nowNum = maxn;
for (it1 = b.begin(); it1 != b.end(); it1++)
{
s.append(*it1);
nowNum=nowNum-1;
if (nowNum != 0)s.append(" ");
}
if(start==7&&quanzhong==1)essay[s]+=10;//记录
else essay[s]++;
b.pop_front();
s = "\0";
}
i += count - 1;
}
else if (count > 0 && count < 4)
{
b.clear();
i += count - 1;
}
else continue; }
if (start == 7)b.clear();//清空
}

性能分析

遇到的困难与解决方法

因为我负责的是爬虫部分,一开始的困难就是虽然学过一点python,但是爬虫没写过,好在爬虫的学习资料网上非常多,我在慕课网上找了一个网课看,之后便照猫画虎写了一个,之后反复修改,比如没有东西爬出来,或者是爬出来的东西都是乱掉的,不懂怎么写进文件等等,询问大佬之后,总算能用了。

收获:写了第一个爬虫

评价队友

我的队友虽然不强,但是比较肯学,而且愿意开口问,中间出现问题基本都是他带着电脑去找大神帮忙解决,我觉得这点很值得我学习,不过在做事情的效率上还是需要改进。

学习进度条

【软工实践】第四次作业--爬虫结合WordCount的更多相关文章

  1. 《软工实践》第零次作业 - 一些QA

    <软工实践>第零次作业 - 一些QA Q&A (1)回想一下你初入大学时对计算机专业的畅想 当初你是如何做出选择计算机专业的决定的? 你认为过去两年中接触到的课程是否符合你对计算机 ...

  2. 福州大学2020年春软工实践W班第一次作业

    作业描述 这个作业属于哪个课程 福州大学2020年春软工实践W班 这个作业要求在哪里 寒假作业(1/2) 这个作业的目标 建立博客.回顾,我的初心.当下和未来.学习路线 作业正文 福州大学2020年春 ...

  3. 软工实践第五次作业-WordCount进阶需求

    软工实践作业(五) GitHub 作业链接 结对博客 031602240 具体分工 PSP表格 代码规范 解题思路与设计说明 爬虫使用 代码组织与内部实现设计(类图) 算法关键 实现方法 流程图 附加 ...

  4. 软工实践 - 第三十次作业 Beta答辩总结

    福大软工 · 第十二次作业 - Beta答辩总结 组长本次博客作业链接 项目宣传视频链接 本组成员 1 . 队长:白晨曦 031602101 2 . 队员:蔡子阳 031602102 3 . 队员:陈 ...

  5. 软工实践 - 第二十一次作业 BETA 版冲刺前准备

    软工 · BETA 版冲刺前准备(团队) 过去存在的问题 组员之间缺乏沟通,前后端缺乏沟通协作 组员积极性不高 基础知识不够扎实 手动整合代码效率过低 我们已经做了哪些调整/改进 通过会议加强组员之间 ...

  6. 2015级软工实践k班第一次作业-准备

    第一次作业-准备······ 几篇文章阅读下来发现一个事实,还是要有明确的目标,清楚自己需要做什么最为重要.然后根据目标确定需要为之所做的准备工作,考研也好,工作也罢,都是服务于自己的目标. 问题答应 ...

  7. 软工实践 - 第十一次作业 Alpha 冲刺 (3/10)

    队名:起床一起肝活队 组长博客:https://www.cnblogs.com/dawnduck/p/9972061.html 作业博客:班级博客本次作业的链接 组员情况 组员1(队长):白晨曦 过去 ...

  8. 2018软工实践第八次作业-团队项目UML设计

    团队信息 队员姓名与学号 学号 姓名 博客链接 124 王彬(组长) 点击这里 206 赵畅 点击这里 215 胡展瑞 点击这里 320 李恒达 点击这里 131 佘岳昕 点击这里 431 王源 点击 ...

  9. 软工实践第八次作业(课堂实战)- 项目UML设计(第五组)

    本次作业博客 团队信息 队名:起床一起肝活队 原组长: 白晨曦(101) 原组员: 李麒 (123) 陈德斌(104) 何裕捷(214) 黄培鑫(217) 王焕仁(233) 林志华(128) 乐忠豪( ...

随机推荐

  1. Linux系统初学-第三课 Linux网络配置1

    Linux系统初学-第三课 Linux网络配置 1.动态IP配置 配置文件路径 /etc/sysconfig/network-scripts/ ls查看网卡eth0,其中HWADDR值得获取:ifco ...

  2. Redis高可用详解:持久化技术及方案选择 (推荐)--转载自编程迷思博客www.cnblogs.com/kismetv/p/8654978.html

    一.Redis高可用概述 在介绍Redis高可用之前,先说明一下在Redis的语境中高可用的含义. 我们知道,在web服务器中,高可用是指服务器可以正常访问的时间,衡量的标准是在多长时间内可以提供正常 ...

  3. 搭建php服务器网站

    一.Apache安装 yum install httpd启动systemctl start httpd.service #启动systemctl stop httpd.service #停止syste ...

  4. c语言异常处理机制

    异常处理机制:setjmp()函数与longjmp()函数 C标准库提供两个特殊的函数:setjmp() 及 longjmp(),这两个函数是结构化异常的基础,正是利用这两个函数的特性来实现异常. 所 ...

  5. GD32F20x系列使用问题总结

    GD单片机近几年越来越火了,既有他自身相比与ST的价格优势,也有支持国货的信仰加成.然而一个新的东西,或者说一个相对较新的东西,在使用的友好性和资料的完整性方面还有很长的路要走. 现将个人使用过程中碰 ...

  6. 20155210 2016-2017-2 《Java程序设计》第10周学习总结

    20155210 2016-2017-2 <Java程序设计>第10周学习总结 教材学习内容总结 计算机网络概述 网络编程的实质就是两个(或多个)设备(例如计算机)之间的数据传输.按照计算 ...

  7. 20155305 2016-2017-2 《Java程序设计》实验三 敏捷开发与XP实践

    20155305 2016-2017-2 <Java程序设计>实验三 敏捷开发与XP实践 实验内容 XP基础 XP核心实践 相关工具 实验步骤 (一)敏捷开发与XP 1.敏捷开发 敏捷开发 ...

  8. 【MySQL函数】MySQL 5.5从零开始学第六章

    说明:本文总结自:<MySQL 5.5从零开始学>第六章 MySQL中的函数包括: 数学函数.字符串函数.日期和时间函数.条件判断函数.系统信息函数和加密函数等. 函数: 表示对输入参数值 ...

  9. centos7下python3与python2共存并且开启py3虚拟环境

    因为下载视频需要用到python3环境,今天在我的win上安装下载工具死活安装不上去,在大盘鸡上一下就安装成功了...可能在win上不兼容吧...无奈只能在大盘鸡上进行折腾了,顺便几个笔记 由于大盘鸡 ...

  10. LUA中点号和冒号的区别

    Student = {}; Student.__index = Student; function Student:new(name, age) local temp = {}; setmetatab ...