分词算法matlab用正向最大匹配算法实现中文分词!急!!!

分词算法  时间:2021-09-01  阅读:()

什么是“分词发”?

“分词发”主要是针对搜索引擎的,因为搜索引擎是老外开发的,老外只懂英文,而且由于英文的书写方式单词与单词之间是空格隔开的,所以计算机很容易把一句英文句子分个成一个一个的单词,但是中文是以字为单位的,一个一个分开就失去了他的意义,举个简单的例子:英文句子I am a student,中文的意思是“我是一个学生”,通过空格搜索引擎能够很容易的知道student是一个单词,但是无法知道需要学和生合起来才表达一个意思,为了让搜索引擎从一个句子中分割出有意义的词,所以就引入了分词这一概念……

请问:计算中文短文本相似性需要对短文本进行分词吗?如果需要的话,有什么分词方法?

要看你选择的相似性算法有什么样的要求了,一般都是用词汇空间距离,这样肯定要进行分词操作的。

分词方法现在有很多,你可以在网上找一些现成的代码来做,不管哪一种分词方法都不能做到100%的分词准确性,还是要加入人工干预的。

哪个高手有中文分词逆向最大匹配算法?

逆向最大匹配法通常简称为RMM法。

RMM法的基本原理与MM法相同 ,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。

逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。

相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。

在实际处理时,先将文档进行倒排处理,生成逆序文档。

然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。

例子:’我一个人吃饭’ 反向最大匹配方式,最大长度为5

java编个中文分词的程序

import?java.io.Reader; import?java.io.StringReader; .apache.lucene.analysis.*; .apache.lucene.analysis.cjk.CJKAnalyzer; .ChineseAnalyzer; .apache.lucene.analysis.standard.StandardAnalyzer; .mira.lucene.analysis.MIK_CAnalyzer; public?class?JeAnalyzer?{ ????public?static?void?testStandard(String?testString)?{ ????????try?{ ????????????Analyzer?analyzer?=?new?StandardAnalyzer(); ????????????Reader?r?=?new?StringReader(testString); ????????????Filter?sf?=?(Filter)?analyzer.tokenStream("",?r); ????????????System.err.println("=====standard?analyzer===="); ????????????Token?t; ????????????while?((t?=?sf.next())?!=?null)?{ ????????????????System.out.println(t.termText()); ????????????} ????????}?catch?(Exception?e)?{ ????????????e.printStackTrace(); ????????} ????} ????public?static?void?testCJK(String?testString)?{ ????????try?{ ????????????Analyzer?analyzer?=?new?CJKAnalyzer(); ????????????Reader?r?=?new?StringReader(testString); ????????????Filter?sf?=?(Filter)?analyzer.tokenStream("",?r); ????????????System.err.println("=====cjk?analyzer===="); ????????????Token?t; ????????????while?((t?=?sf.next())?!=?null)?{ ????????????????System.out.println(t.termText()); ????????????} ????????}?catch?(Exception?e)?{ ????????????e.printStackTrace(); ????????} ????} ????public?static?void?testChiniese(String?testString)?{ ????????try?{ ????????????Analyzer?analyzer?=?new?ChineseAnalyzer(); ????????????Reader?r?=?new?StringReader(testString); ????????????TokenFilter?tf?=?(TokenFilter)?analyzer.tokenStream("",?r); ????????????System.err.println("=====chinese?analyzer===="); ????????????Token?t; ????????????while?((t?=?tf.next())?!=?null)?{ ????????????????System.out.println(t.termText()); ????????????} ????????}?catch?(Exception?e)?{ ????????????e.printStackTrace(); ????????} ????} ????public?static?String?transJe(String?testString,?String?c1,?String?c2)?{ ????????String?result?=?""; ????????try?{ ????????????Analyzer?analyzer?=?new?MIK_CAnalyzer(); ????????????Reader?r?=?new?StringReader(testString); ????????????TokenStream?ts?=?(TokenStream)?analyzer.tokenStream("",?r); ????????????Token?t; ????????????while?((t?=?ts.next())?!=?null)?{ ????????????????result?+=?t.termText()?+?","; ????????????} ????????}?catch?(Exception?e)?{ ????????????e.printStackTrace(); ????????} ????????return?result; ????} ????public?static?void?main(String[]?args)?{ ????????try?{ ????????????String?testString?=?"中文分词的方法其实不局限于中文应用,也被应用到英文处理,如手写识别,单词之间的空格就很清楚,中文分词方法可以帮助判别英文单词的边界"; ????????????System.out.println("测试的语句????"+testString); ????????????String?sResult[]?=?transJe(testString,?"gb2312",?"utf-8").split(","); ????????????for?(int?i?=?0;?i?<?sResult.length;?i++)?{ ????????????????System.out.println(sResult[i]); ????????????} ????????}?catch?(Exception?e)?{ ????????????e.printStackTrace(); ????????} ????} } jar包?? lucene-analyzers-2.4.1.jar lucene-core-2.4.1.jar IKAnalyzer2.0.2OBF.jar

matlab用正向最大匹配算法实现中文分词!急!!!

SqlConnection con = new SqlConnection con.Open(); string sqlstr = "sql语句"; SqlDataAdapter da = new SqlDataAdapter(sqlstr, con); DataSet ds= new DataSet(); da.Fill(ds); dataGridView1.DataSource = ds.Tables[0]; con.Close();

DiyVM(50元起)老牌商家,香港沙田CN2直连vps/不限流量/五折终身优惠

diyvm怎么样?diyvm是一家国内成立时间比较久的主机商家了,大约在6年前站长曾经用过他家的美国机房的套餐,非常稳定,适合做站,目前商家正在针对香港沙田机房的VPS进行促销,给的是五折优惠,续费同价,香港沙田机房走的是CN2直连的线路,到大陆地区的速度非常好,DiyVM商家采用小带宽不限流量的形式,带宽2Mbps起步,做站完全够用,有需要的朋友可以入手。diyvm优惠码:五折优惠码:OFF50...

Sharktech鲨鱼服务器商提供洛杉矶独立服务器促销 不限流量月99美元

Sharktech(鲨鱼服务器商)我们还是比较懂的,有提供独立服务器和高防服务器,而且性价比都还算是不错,而且我们看到有一些主机商的服务器也是走这个商家渠道分销的。这不看到鲨鱼服务器商家洛杉矶独立服务器纷纷促销,不限制流量的独立服务器起步99美元,这个还未曾有过。第一、鲨鱼机房服务器方案洛杉矶机房,默认1Gbps带宽,不限流量,自带5个IPv4,免费60Gbps / 48Mpps DDoS防御。C...

丽萨主机:美国CN2 GIA精品网/KVM/9折,美国原生IP,最低27元/月

丽萨主机怎么样?丽萨主机,团队于2017年成立。成立之初主要做的是 CDN 和域名等相关业务。最近开辟新领域,新增了独立服务器出租、VPS 等业务,为了保证业务质量从一开始就选择了中美之间的 CN2 GIA 国际精品网络,三网回程 CN2 GIA,电信去程 CN2 GIA + BGP 直连智能路由,联通移动去程直连,原生IP。适合对网络要求较高的用户,同时价格也比较亲民。点击进入:丽萨主机官方网站...

分词算法为你推荐
传真号码传真号就是电话号码?我的文档win7系统我的文档在哪云和数据云和数据到底是培训机构还是公司临时文件放临时文件在电脑C盘的哪里竞争者什么是竞争?竞争的真实含义是什么?计算机网络的定义计算机的网络定义是什么?它有哪两种网络?互联网接入无线路由器怎样接入互联网显示系统电视显示系统正在启动打不开怎么办网不易上网的好处和坏处色空间相机、PS里色彩空间该怎样设置?
域名投资 高防服务器租用qy 国外vps主机 重庆vps租用 中文域名申请 西安电信测速 asp.net主机 美国主机网 私人服务器 512m 好看的桌面背景图 域名转向 百兆独享 爱奇艺vip免费试用7天 hkt 石家庄服务器托管 广州虚拟主机 免费个人主页 稳定空间 服务器硬件配置 更多