codeforces Gym 100338F Spam Filter 垃圾邮件过滤器（模拟，实现）

阅读题，

概要：给出垃圾邮件和非垃圾邮件的集合，然后按照题目给出的贝叶斯公式计算概率一封邮件是垃圾邮件的概率。

逐个单词判断，将公式化简一下就是在垃圾邮件中出现的次数和在总次数的比值，大于二分之一就算是垃圾邮件的单词。

如果一个邮件里的垃圾邮件的单词出现次数超过给定比例就算是垃圾邮件。

需要注意的地方是：一个邮件里单词只能统计一次，用set保证不重复。

因为sstream会很慢，容易T，所以手写了一个类似的sstream的函数

#include<bits/stdc++.h>

using namespace std;

typedef long double ld;

map<string,int> spam,good;

set<string> once;

int s,g,n,T;

const int maxn = ;

char str[maxn],word[maxn];

int sscan_l(char *w,char *&s)

{

    while(isalpha(*s) == ){

        if(!*s) return ;

        s++;

    }

    int j = ;

    for(int t; s[j] && (t = isalpha(s[j])) !=; j++){

        w[j] = s[j];

        if(t == ) w[j] += 'a'-'A';

    }

    w[j] = '\0'; s += j;

    return j;

}

bool judge()

{

    gets(str); char *p = str;

    int cnt = ;

    once.clear();

    while(sscan_l(word,p)){

        string s0 = word;

        if(once.count(s0) == ){

            once.insert(s0);

            int wS = spam[s0];

            int wTot = wS + good[s0];

            if(wTot && wS* >= wTot) cnt++;

        }

    }

    return cnt*>=T*once.size();

}

int main()

{

    freopen("spam.in","r",stdin);

    freopen("spam.out","w",stdout);

    scanf("%d%d%d%d\n",&s,&g,&n,&T);

    for(int i = ; i < s; i++){

        gets(str); char *p = str;

        once.clear();

        while(sscan_l(word,p)){

            string s0 = word;

            if(once.count(s0) == ){

                once.insert(s0);

                spam[s0]++;

            }

        }

    }

    for(int i = ; i < g; i++){

        gets(str); char *p = str;

        once.clear();

        while(sscan_l(word,p)){

            string s0 = word;

            if(once.count(s0) == ){

                once.insert(s0);

                good[s0]++;

            }

        }

    }

    for(int i = ; i < n; i++){

        if(judge()) puts("spam");

        else puts("good");

    }

    return ;

}

codeforces Gym 100338F Spam Filter 垃圾邮件过滤器（模拟，实现）的更多相关文章

Codeforces Gym 100338B Spam Filter 字符串哈希+贝叶斯公式
原题链接:http://codeforces.com/gym/100338/attachments/download/2136/20062007-winter-petrozavodsk-camp-an ...
Codeforces Gym 100851 K King's Inspection ( 哈密顿回路 && 模拟 )
题目链接题意 : 给出 N 个点(最多 1e6 )和 M 条边 (最多 N + 20 条 )要你输出一条从 1 开始回到 1 的哈密顿回路路径,不存在则输出 " There is no r ...
WEKA使用（基础配置+垃圾邮件过滤+聚类分析+关联挖掘）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的WEKA,实验内容主要有三部分,第一是分类挖掘(垃圾邮件过滤),第二是聚类分析, ...
python 和 scikit-learn 实现垃圾邮件过滤
文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注.目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文 ...
Linux中Postfix反病毒和垃圾邮件工具（十）
amavisd-new amavisd-new呼叫器是一个连接MTA和内容检测工具(诸如病毒扫描工具和SpamAssassin)的高性能接口程序,使用perl语言写成.它一般通过SMTP.ESMTP或 ...
Linux中Postfix反病毒和垃圾邮件（十）
amavisd-new amavisd-new呼叫器是一个连接MTA和内容检测工具(诸如病毒扫描工具和SpamAssassin)的高性能接口程序,使用perl语言写成.它一般通过SMTP.ESMTP或 ...
contact form 7如何搭配Akismet过滤垃圾邮件
contact form 7有很多站长在用,但是经常会有一些垃圾邮件进来,如何过滤呢?两个方法:1.表单提交启用验证码功能,很多垃圾邮件是用软件扫相应的端口,然后批量群发,如果用验证码了可以过滤很大一 ...
使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重
Bloom Filter是一个占用空间很小.效率很高的随机数据结构,它由一个bit数组和一组Hash算法构成.可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1). 在很多场景下 ...
【DM】Combating Web Spam with TrustRank - 用TrustRank对抗网络垃圾邮件
[论文标题]Combating Web Spam with TrustRank (Proceedings 2004 VLDB Conference) [论文作者]Zolt´an Gy¨ongyi,He ...

随机推荐

2.11 Hive中数据导入导出Import和Export使用
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport 一.Export.Import Export ...
实战分析一个运行起来会卡死的Go程序
序言最近一位非常热心的网友建议结合demo来分析一下goroutine的调度器,而且还提供了一个demo代码,于是便有了本文,在此对这位网友表示衷心的感谢! 这位网友提供的demo程序可能有的gop ...
centos 7.3 安装vmtools，解决无法编译共享文件夹模块
环境说明: vmware 12.5.0 build-4352439 centos 7.3.1611 64位,内核版本:Linux version 3.10.0-514.16.1.el7.x86_6 ...
perl 操作文件指针
之前使用perl 脚本写了一个读取文件的小工具,但是由于当时使用的Tie 的方式,在处理大文件时,效率并不十分理想,所以在网上搜索了perl 如何操作文件指针的文章,自己也学习一下,本博客就是学习过程 ...
在linux下pycharm无法输入中文
1.在centos系统下,在pycharm中,输入中文件时,显示的字母,无法显示中文字符. 首先,在centos下安装中文输入法,下面安装的是五笔输入法. a::yum安装ibus的五笔输入法: yu ...
physics(2018.10.27)
这道题可以推出$O(1)$的算法,但是实际上暴力模拟就可以过了. 代码(暴力模拟): #include<cstdio> #include<algorithm> #inclu ...
tagName
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
monxin cms 任意文件删除漏洞
\program\diypage\receive\edit.php首先看到一个unlink($path);本来应该先看sql语句的,但知道是任意文件删除先跳过删除语句,看看$path怎么传入的倒推上去 ...
Longest Palindromic Substring笔记
这是一道在leetcode上看到的题目一开始,我能想到的思路是蛮力法: 就遍历每个字符,然后对每个字符都尝试从1到n的长度,看有没有回文串,并记录以该字符起始的回文串的最大长度.这个思路其实没有上手 ...
图像分类丨ILSVRC历届冠军网络「从AlexNet到SENet」
前言深度卷积网络极大地推进深度学习各领域的发展,ILSVRC作为最具影响力的竞赛功不可没,促使了许多经典工作.我梳理了ILSVRC分类任务的各届冠军和亚军网络,简单介绍了它们的核心思想.网络架构及其 ...

codeforces Gym 100338F Spam Filter 垃圾邮件过滤器（模拟，实现）

codeforces Gym 100338F Spam Filter 垃圾邮件过滤器（模拟，实现）的更多相关文章

随机推荐

热门专题