一些分词常用工具
分词用到的一些方法和工具
NLTK的一些分词方法
这些对象均来源于nltk.tokenize库
1.word_tokenize
导入nltk的tokenize库后 tokens=nltk.word_tokenize(sentence)语句进行分词操作 sentence为待处理的字符串。返回一个列表。该方法要求被处理的字符串本身各个词语间有空格能处理如don’ t,they’ l l等缩写词的情况。
2.TweetTokenizer 分两种 1.不带参数token=
TweetTokenizer().tokenize(sentence)处理输入"This is a cooool
#dummysmi ley: :-) :-P<3 and somearrows<> -><--"
输出['This',' is','a','cooool','#dummysmi ley',' :',' :-)',' :-P','<3','and','some','arrows','<','>','->','<--']能够拆分无效用的标点符号。 2.带参数token=
TweetTokenize(strip_handles=True,reduce_len=True)输入@remy:This iswaaaaayyyytoo much foryou! ! ! ! ! !
输出[' :','This',' is','waaayyy','too','much','for','you',
' !',' !',' !']
当一个词中相同字符连续出现3次以上就只保留3个。
3.MWETokenizer tokenizer=MWETokenizer([('a',
' l ittle'), ('a',' l ittle','bit'),
('a',' lot')])
输入tokenizer.tokenize(' Ina l ittleora l ittlebitora lot inspiteof' .spl it())输出[' In','a_l ittle','or','a_l ittle_bit','or',
'a_lot',‘in’' in_spite_of']
可见该方法可对已先保留的一些短语或者组合进行重组对一些专有词可以先进行保留如F-16最后重组已保留 ‘-’
4.RegexpTokenizer
使用到正则表达式进行分词如对一些金钱表示或者其他非空白序列。tokenizer=RegexpTokenizer('\w+|\$[\d\.]+|\S+')
输入"Good muffinscost$3.88\nin NewYork. Pleasebuyme\ntwoofthem.\n\nThanks."
输出['Good','muffins','cost',
'$3.88',' in','New','York',
' .',
'Please','buy','me','two','of','them',' .','Thanks',
' .']
5.Twitter-awaretokenizer
按空格进行分词 同时针对推文一些特性去除@用户名保留表情等一些特殊符号。
输入"This isacooool#dummysmi ley: :-) :-P<3and somearrows<> -><--"
输出['This',' is','a','cooool','#dummysmi ley',' :',' :-)',' :-P','<3','and','some','arrows','<','>','->','<--']
6.StanfordTokenizer
按空格进行分词对于$4.28之类的将符号与数字分开。 输入"Goodmuffins cost$3.88\nin NewYork. Please buy me\ntwoof them.\nThanks."
输出['Good','muffins','cost',
'$','3.88',' in','New',
'York',' .','Please','buy',
'me','two','of','them',
' .','Thanks',' .']
搬瓦工今天正式对外开卖荷兰阿姆斯特丹机房走联通AS9929高端线路的VPS,官方标注为“NL - China Unicom Amsterdam(ENUL_9)”,三网都走联通高端网络,即使是在欧洲,国内访问也就是飞快。搬瓦工的依旧是10Gbps带宽,可以在美国cn2 gia、日本软银与荷兰AS9929之间免费切换。官方网站:https://bwh81.net优惠码:BWH3HYATVBJW,节约6...
由于行业需求和自媒体的倾向问题,对于我们个人站长建站的方向还是有一些需要改变的。传统的个人网站建站内容方向可能会因为自媒体的分流导致个人网站很多行业不再成为流量的主导。于是我们很多个人网站都在想办法进行重新更换行业,包括前几天也有和网友在考虑是不是换个其他行业做做。这不有重新注册域名重新更换。鉴于快速上手的考虑还是采用香港服务器,这不腾讯云和阿里云早已不是新账户,考虑到新注册UCLOUD账户还算比...
CloudCone商家在前面的文章中也有多次介绍,他们家的VPS主机还是蛮有特点的,和我们熟悉的DO、Linode、VuLTR商家很相似可以采用小时时间计费,如果我们不满意且不需要可以删除机器,这样就不扣费,如果希望用的时候再开通。唯独比较吐槽的就是他们家的产品太过于单一,一来是只有云服务器,而且是机房就唯一的MC机房。CloudCone 这次四周年促销活动期间,商家有新增独立服务器业务。同样的C...