邮件一种基于机器学习的垃圾邮件智能过滤方法

垃圾邮件  时间:2021-02-20  阅读:()

第20卷第1期 现 代 电 力 Vol120 No11

2003年2月 MODERN ELECTRIC POWER Feb1 2003

一种基于机器学习的垃圾邮件智能过滤方法

周威成 马素霞 齐林海

关键词:Naive Bayes (N1B1)算法;机器学习;垃圾邮件过滤

中图分类号: TP3931098

文献标识码:A 文章编号: 100722322 (200)01220065203

很多商家利用E2 ma il的容易发送、价格便宜 识别以概率的形式给出一个定量表示。

)算法

“反动”信息方面,因为 “反动”信息比一般邮件 其中:P(ci| d)为文件d属于类型ci的概率;的邮件信息有着更鲜明的特征。同时,基于规则的 P(ci)为任意取一个文件属于c i的概率;过滤不能解决邮件过滤中的一个常见问题:邮件过 P(wj| ci)为类型ci中选定一个词为wj的概滤中常常会把垃圾邮件识别为正常邮件,把正常邮 率;

件识别为垃圾邮件。把垃圾邮件识别为正常邮件在 P(d)为任意取一个文件为d的概率。 对于一定范围内是可以接受的,但把正常邮件识别为垃 具体文件d,如果属于类型ci ,则P (ci圾邮件,则是不能接受的。如果能对识别给出一个 |d)为最大值。 由于P(d)是一个特定值,所以对定量的表示,将会是一个不错的解决办法。下文将 于文件d属于文件类型CN 1 B1,有

要介绍的利用Naive Bayes算法的过滤方法,能对 CN1B = m ax(P(ci)

收稿日期: 2002 12 16

作者简介:周威成(1978—) ,男,硕士研究生;主要研究方向为自然语言处理、计算机网络;马素霞(1964—) ,女,副教授,主要研究方向为算法设计、数据结构、MIS、 GIS。

66 现 代 电 力 2003年

c1=垃圾邮件, c2=正常邮件,直接应用N1B1分 | V | +∑s=1∑i=1 N(ws , di)

果是比较准确的。 目前无很好的解决方法,一般采用先定初始值,然

应用算法到垃圾邮件过滤中,需要把邮件表示 后根据实验测试和统计结果确定最佳值,一般初始成特征向量的形式。利用向量空间模型,定义空间 值定在几千左右。

中每一维对应整个信息库中的每一个词汇。每一封 特征项的选择,除了上面介绍的基于词汇的特邮件可以看作是一个向量d = (w1 , w2, 征项之外,还有非词汇特征项1比如说邮件是否带1wn), w1 , w2, , wn是W1 , W2, , Wn的 有附件,以及所带附件的扩展名等。邮件文本中包值。 Wi表示邮件中的词汇特征项或者一些非词 含的非汉字、字母信息也是区分邮件是否是垃圾邮汇的(比如说,邮件是否带有附件、附件的扩展名 件的很重要的一个方面。

机器学习

2 特征项选择

本文所采用的训练集的一部分是从一家公司的邮

第1期 周威成等:一种基于机器学习的垃圾邮件智能过滤方法 67

件服务器中由pro c ma il (一种基于规则的邮件过滤程 根据实验结果,当F1达到80%以上时,就可序)的过滤结果中整理的,一部分是从INTERNET 看作对邮件进行了比较准确的过滤。

新闻组中整理的。总共整理出900多封邮件。 由实验结果(表1)可以看出,Naive Bayes算

算法实现过程:首先,通过最大匹配(MM) 法在邮件过滤中可取得理想的结果。

法则对训练库中的邮件进行分词。然后按照文中介 表1 N1B1算法邮件过滤中应用的查全率和准确率和F1值

个分类过程1所以评估的标志主要是分类的准确程 用效果。但是对于信息更加复杂和抽象的中文邮件度。分类准确程度的参照物是通过算法判断后对文 的处理问题还有待于进行更加深入的研究。参 考 文 献

个人思维差异的因素)系统的两个指标

查全率是人工分类结果应有的文本中分类系统 [3]张晓冬,张书杰1关于信息过滤模型的探讨[J]1计算

准确率和查全率反映了分类质量的两个不同方 Processing,2000 ,3136

A Way to Filter Junk Mail Intell igently Based on Machine Learning

Zhou Weicheng,MaSuxia , Qi L inhai

(North China Electric Power University (Beijing)Department of Computer Science andTechnilogy)

Abstract : In order to filter the Unsolicited Bulk E2mail (UBE) , so2called the junk mail , the Naive Bayes(N1B1) algorithm is presented in detail1 The application of N1B1algorithm, and reformation for the specialcharacter of e2mail , is implemented1An evaluation algorithm of the application is given.The consequence of theevaluation shows that the effect isgood.

Keywords :Nave Bayes (N1B1) algorithm;Machine Learning; junk mail filtering

蓝竹云挂机宝25元/年,美国西雅图 1核1G 100M 20元

蓝竹云怎么样 蓝竹云好不好蓝竹云是新商家这次给我们带来的 挂机宝25元/年 美国西雅图云服务器 下面是套餐和评测,废话不说直接开干~~蓝竹云官网链接点击打开官网江西上饶挂机宝宿主机配置 2*E5 2696V2 384G 8*1500G SAS RAID10阵列支持Windows sever 2008,Windows sever 2012,Centos 7.6,Debian 10.3,Ubuntu1...

HostKvm - 夏季云服务器七折优惠 香港和韩国机房月付5.95美元起

HostKvm,我们很多人都算是比较熟悉的国人服务商,旗下也有多个品牌,差异化多占位策略营销的,商家是一个创建于2013年的品牌,有提供中国香港、美国、日本、新加坡区域虚拟化服务器业务,所有业务均对中国大陆地区线路优化,已经如果做海外线路的话,竞争力不够。今天有看到HostKvm夏季优惠发布,主要针对香港国际和韩国VPS提供7折优惠,折后最低月付5.95美元,其他机房VPS依然是全场8折。第一、夏...

Sharktech:无限流量服务器丹佛,洛杉矶,荷兰$49/月起,1Gbps带宽哦!

鲨鱼机房(Sharktech)我们也叫它SK机房,是一家成立于2003年的老牌国外主机商,提供的产品包括独立服务器租用、VPS主机等,自营机房在美国洛杉矶、丹佛、芝加哥和荷兰阿姆斯特丹等,主打高防产品,独立服务器免费提供60Gbps/48Mpps攻击防御。机房提供1-10Gbps带宽不限流量服务器,最低丹佛/荷兰机房每月49美元起,洛杉矶机房最低59美元/月起。下面列出部分促销机型的配置信息。机房...

垃圾邮件为你推荐
iphone360手机卫士苹果手机360安全卫士怎么用推广方法现在最常用的推广方式有哪几种金山杀毒怎么样金山杀毒怎么样?依赖注入什么是依赖注入依赖注入的作用是什么意思ps抠图技巧请教PS抠图技巧!!!不兼容vivo手机和软件不兼容怎么办?腾讯文章腾讯新闻的精选微信里面收藏的文章在哪里硬盘人电脑对人有多大辐射?宕机人们说的宕机是什么意思网管工具网吧管理软件都有哪些?
虚拟主机评测 m3型虚拟主机 厦门域名注册 希网动态域名 申请个人网页 骨干网络 vip购优汇 刀片服务器是什么 免费个人空间 新家坡 爱奇艺vip免费试用7天 gtt 服务器硬件防火墙 常州联通宽带 raid10 跟踪路由命令 空间首页登陆 www789 免费asp空间 lamp的音标 更多