首先是读取数据集,并将csv中ExtractedBodyText为空的给去除掉 import pandas as pd import re import os dir_path=os.path.dirname(os.path.abspath(__file__)) data_path=dir_path+"/Database/HillaryEmails.csv" df=pd.read_csv(data_path) df=df[['Id','ExtractedBodyText']].drop…
centos下默认自带mail命令: 可以用如下命令查看存放位置: which mail 结果如下: 如果没有安装可以使用 如下命令安装 yum -y install mailx 利用mail命令进行邮件发送,需要利用到第三方邮件服务器,如163等,需要一个授权码来识别(注意不是邮箱密码),获取授权码过程如下: 需要手机号验证开启,具体过程可以百度 163邮箱授权 参考: https://jingyan.baidu.com/article/aa6a2c149f7b250d4c19c4b3.htm…
上一篇文章我们学习了利用JavaMail发送简单邮件,这篇文章我们利用JavaMail发送稍微复杂一点的邮件(包含文本.图片.附件).这里只贴出核心代码,其余代码可参考JavaMail(一):利用JavaMail发送简单邮件 封装发送邮件代码 /** * 封装发送邮件代码 * @author fly * @时间 2017-05-09 * */ public class Email { /** * 创建并发送一封包含文本.图片.附件的复杂邮件 * @throws Exception */ publ…
1.前言 主要介绍在android手机上如何利用tcpdump抓包,用wireshark分析包. android tcpdump官网: http://www.androidtcpdump.com/ tcpdump  官网: http://www.tcpdump.org/ 2.准备 To use this application, you need to have: A Rooted Android Device (root权限) A Terminal Access Program  (终端程序)…
利用 Memory Dump Diagnostic for Java (MDD4J) 分析内存管理问题(2) 启动和理解 MDD4J[size=1.0625]为了充分理解如何使用 MDD4J,您需要了解用于描述内存泄漏的几个术语的含义.图 1 通过名为 MyClass 的示例展示了这些术语,此示例具有一个 HashSet,包含字符串对象.图 1. 内存泄漏术语 泄漏根:包含导致泄漏容器的对象链的引用的对象.如果在所有者链中未发现任何类对象,则此术语表示可找到泄漏容器的内存转储中的根对象. 泄漏容…
背景 我们经常使用 Chrome Dev Tools 来开发调试,但是很少知道怎么利用它来分析页面性能,这篇文章,我将详细说明怎样利用 Chrome Dev Tools 进行页面性能分析及性能报告数据如何解读. 分析面板介绍 上图是 Chrome Dev Tools 的一个截图,其中,我认为能用于进行页面性能快速分析的主要是图中圈出来的几个模块功能,这里简单介绍一下: Network : 页面中各种资源请求的情况,这里能看到资源的名称.状态.使用的协议(http1/http2/quic...).…
#coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv("./input/HillaryEmails.csv") # 原邮件数据中有很多Nan的值,直接扔了. df = df[['Id', 'E…
本文主要用于理解主题模型LDA(Latent Dirichlet Allocation)其背后的数学原理及其推导过程.本菇力求用简单的推理来论证LDA背后复杂的数学知识,苦于自身数学基础不够,因此文中还是大量引用了各方大神的数学推导细节,既是为了方便自己以后回顾,也方便读者追本溯源,当然喜欢直接看应用的读者可直接翻到第二章~ 基本目录如下: LDA的原理1.1 先导数学知识准备1.2 文本模型 - Unigram Model1.3 主题模型 - PLSA Model1.4 主题模型 - LDA…
django窗口类运用和邮件收发 运用django窗口类来完成表单html 1 具体你看网址: https://www.cnblogs.com/guguobao/p/9322027.html 利用窗口类后,在网页调用函数view.contact()中,添加以下代码 def email(request): if request.method == 'POST': form = ContactForm(request.POST) #获取POST表单 if form.is_valid(): messa…
在写监控脚本时,为了更好的监控服务器性能,如磁盘空间.系统负载等,有必要在系统出现瓶颈时,及时向管理员进行报告.在这里通常采用邮件报警,同时,邮件设置为收到邮件,即向指定手机号码发送短信.这样可以实现7*24小时及时监控服务器状况.      在这里,采用的是linux系统自带的邮件服务器:sendmail.但sendmail默认只能给本机发送邮件,如何发送外部邮件呢?在这里,需要修改sendmail的配置文件.具体步骤如下:      1.修改配置文件            # vim /et…
java实现邮件的发送依赖的jar包有两个:mail.jar和activation.jar,我也找到了一个工具包:itcast-tools-1.4.jar,实现原理大家可以查看源码,先放出资源链接 https://pan.baidu.com/s/1jI7GxSi  提取码:aiyc ,来说一下使用说明及注意点 (一定要把jar包导入到工程中)先上源码: import java.io.IOException; import javax.mail.MessagingException; import…
最近我要做一个爬虫.这个爬虫需要如下几个步骤: 1 填写注册内容(需要邮箱注册) 2 过拖拽验证码(geetest) 3 注册成功会给邮箱发一封确认邮箱 4 点击确认邮箱中的链接 完成注册 我这里就采用163邮箱注册. 邮箱协议有 pop3 和 imap 和 smtp 我试了pop3  不能够筛选邮件 例如筛选未读 和 发件人这2个条件 所以放弃用pop3 imap协议是支持的. 我就找了一个开源的第三方lib:S22.Imap 用法很简单: public void Test163() { va…
1.LDA概述 在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和 隐含狄利克雷分布(Latent Dirichlet Allocation).本文的LDA仅指代Latent Dirichlet Allocation. LDA 在主题模型中占有非常重要的地位,常用来文本分类. LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块.在贝叶斯学派中有: 先验分布 + 数据(似然)…
首先介绍下sendMail About SendEmailSendEmail is a lightweight, command line SMTP email client. If you have the need to send email from a command line, this free program is perfect: simple to use and feature rich. It was designed to be used in bash scripts,…
工作中有时长时间运行代码时需要监控进度,或者需要定期发送固定格式邮件时,可以使用下面定义的邮件函数. 该函数调用了outlook和qqmail的接口,只需要放置到python的环境目录中即可 import 并使用.这里建议所有自己定义的函数放置在python3的文件下 而非site-package文件下. 也可以防止在任意默认环境路径下.默认路径查询: import site; site.getsitepackages() 自己定义的函数将py文件命名为send_mail.py然后放置在上面显示…
JavaMail,提供给开发者处理电子邮件相关的编程接口.它是Sun发布的用来处理email的API.它可以方便地执行一些常用的邮件传输.但它并没有包含在JDK中,要使用JavaMail首先要下载javax.mail.jar下载地址:https://javaee.github.io/javamail/ 自定义验证: /** * 自定义验证 * @author fly * @时间 2017-05-09 * */ public class MyAuthenticator extends Authen…
#!/usr/bin/env python # -*- coding:utf-8 -*- import smtplib from email.utils import formataddr from email.mime.text import MIMEText def email(p,text,subject): msg = MIMEText(text,'plain','utf-8') msg['From'] = formataddr(['xxx','xxxx@126.com']) msg['…
飞机票 飞机票 步骤: 1. 离线求的模型 2. 用模型对新文本预测topic,取topic概率带到阈值(例如0.2)且topN个topic,例如doc1 :topic1:0.5, topic2:0.2 3. 用户点击doc1,就说明用户对topic1和topic2感兴趣,保存用户新闻分析结果,以待推荐…
项目中用短信通知有时间限制,对一些频率比较大的信息力不从心. 使用邮箱发送信息是个不错的选择\(^o^)/! 首先要注册一个邮箱,在邮箱设置里开通smtp功能. 简单介绍下smtp,大概就是第三方客户端登录邮箱的功能.打开smtp功能,我们的项目里的邮箱类就可以充当邮箱客户端使用,从而发送信息了.(但要注意,密码将不是邮箱的登录密码.而是邮箱生成授权码或者自己设置的授权码) 下面是干货 <? class SmtpAction extends Action { /* Public Variable…
  目标: 快速理解什么是混淆矩阵, 混淆矩阵是用来干嘛的. 首先理解什么是confusion matrix 看定义,在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵.它是一种特定的矩阵用来呈现算法性能的效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix). 大白话来讲,就是对机器学习算法的运行结果进行评价,效果如何,精确度怎么样而已. 举个例子,在什么场景下需要这个confusion matrix 假设有一个用来对猫(ca…
http://www.cnblogs.com/crystalray/articles/3302427.html 邮件mime格式 参考: rfc4021,Registration of Mail and MIME Header Fields, http://www.apps.ietf.org/rfc/rfc4021.html, 总体来说,MIME消息由消息头和消息体两大部分组成.这里,分别称为为邮件头.邮件体. 邮件头 邮件头包含了发件人.收件人.主题.时 间.MIME版本.邮件内容的类型等重要…
毕业设计里需要邮件发送,所以学习,总的来讲,我考虑以下几点, 代码量少,代码简单.配置少,一看就懂,使用 JavaMail 太麻烦了. 异步执行,添加员工之后会发送入职邮件, 多线程处理,设计里有一个公告推送的功能,就是发布一个公告会给所以员工发一份公告内容的邮件. 方法一:之前电脑里装了Python环境,所以最开始用Python脚本的方式实现,主要是觉得Python太精干了,在Service里调用执行Python脚本.需要的参数以命令行的方式传参,线程池使用 ThreadPoolExecuto…
最好是跟CBM一起来使用.   Presentation Here: https://ibm.biz/BdXJrQ CAN ONLY ACCESS at IBM internal.…
_winreg.OpenKey(key, sub_key, res, sam)     key是一个已经打开的键,或者是HKEY_CLASSES_ROOT.HKEY_CURRENT_USER.HKEY_LOCAL_MACHINE.HKEY_USERS.HKEY_PERFORMANCE_DATA.HKEY_CURRENT_CONFIG这些中的一个. _winreg.EnumKey(key, index)  枚举键,key is an already open key, or any one of…
  image Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes). 用GSEA做富集分析是非常简单的,结…
1    I either LOVE Brokeback Mountain or think it’s great that homosexuality is becoming more acceptable!:1    Anyway, thats why I love ” Brokeback Mountain.1    Brokeback mountain was beautiful…0    da vinci code was a terrible movie.0    Then again…
场景介绍: 设备端通过服务器传向客户端(Android手机)实时发送视频数据(H.264)和音频数据(g711a或g711u), 需要在客户端将音视频数据保存为MP4文件存放在本地,用户可以通过APP或者直接在手机上观看MP4文件. 解决方案: 通过Android MultiMedia Framework提供的MediaMuxer类对音视频数据进行同步合成. 流程图: 流程分析: 1.整体来看, 合成的MP4文件, 视频部分为H.264编码格式的数据, 音频部分为AAC编码格式的数据, 因此,…
主题数确定:困惑度计算,画出曲线,选择拐点,避免信息丢失和主题冗余 https://blog.csdn.net/u014449866/article/details/80218054 参数调节: 方法一: alpha 是 选择为 50/ k, 其中k是你选择的topic数,beta一般选为0.01吧,,这都是经验值,貌似效果比较好,收敛比较快一点:…
得知李航老师的<统计学习方法>出了第二版,我第一时间就买了.看了这本书的目录,非常高兴,好家伙,居然把主题模型都写了,还有pagerank.一路看到了马尔科夫蒙特卡罗方法和LDA主题模型这里,被打击到了,满满都是数学公式.LDA是目前为止我见过最复杂的模型了. 找了培训班的视频看,对LDA模型有了大致的认识.下面总结一点东西. 1.LDA与PLSA的联系 LDA模型和PLSA的联系非常紧密,都是概率模型(LSA是非概率模型),是利用概率生成模型对文本集合进行主题分析的无监督学习方法. 不同在于…
Google 的两位创始人都是斯坦福大学的博士生,他们提出的 PageRank 算法受到了论文影响力因子的评价启发.当一篇论文被引用的次数越多,证明这篇论文的影响力越大.正是这个想法解决了当时网页检索质量不高的问题. /*请尊重作者劳动成果,转载请标明原文链接:*/ /* https://www.cnblogs.com/jpcflyer/p/11180263.html * / 一. PageRank 的简化模型 我们先来看下 PageRank 是如何计算的. 我假设一共有 4 个网页 A.B.C…