分词中文分词技术在社会化媒体分析效果研究

分词技术  时间:2021-02-09  阅读:()

中文分词技术在社会化媒体分析效果研究目录

1社会化媒体

2中文分词技术

1

2

3中文分词技术在社会化媒体分析中的应用

1网址采集

2 内容采集

1最大正向匹配法处理实例

2最大逆向匹配法处理实例

4结论

正文

随着社会的发展社会化媒体Social Media已经在网络化环境中被广泛研究。社会化媒体包含交互式的应用和分享交换用户生成内容的平台创建。在过去的十年社会化媒体迅速发展。通过对它们的建模分析从这个超越社会沟通的、拥有大量数据的超集中可以很好地反映并提炼出交往互动者之间的思想动态、行为倾向甚至某一社交群体的集体策略。因而本文主要是对社会化媒体分析系统采集的数据应用中文分词技术进行处理分析最终得到有用的关键词为可以提前预测社会群体的交往意向和可能发生的行为结果比如判定投资或营销群体的兴趣方向、旅游公司和游客动态、特定人群的行为意向、学生群体的思维模式和动机等提供一定的依据为后续研究加以干预或进行行为控制为达到所希望达到的经济社会运行模式、群体和个人行为以及提高教育教学的可控性奠定一定的基础。

1社会化媒体

社会化媒体包括平台创建和交换用户生成内容通常社会化媒体也被称为消费者产生的媒体CGM 。社会化媒体和传统的媒体有所不同 比如报纸、书本、电视等任何一种媒体印刷成本较高而社会化媒体在印刷出版方面的成本却很低但社会化媒体并不是完全不同于传统媒体它与传统的媒体存在密切的联系。

社会化媒体的形式很多包括博客、社交网站、虚拟社区等。社会化媒体有七个方面是大家一直关注的身份、交谈、分享、存在、友

谊、名誉及成员。不同的社会化媒体有不同的关注点像维基百科等合作项目经常关注的是共享及信誉而在虚拟社区中身份、存在、信誉等备受关注。总之社会化媒体在人们的生活中发挥着举足轻重的重要。因此对社会化媒体的分析更具有研究价值。

社会化媒体的定义学者Andreas Kaplan和Michael Haenlein认为社会化媒体是一组建立在Web2.0技术基础上允许创建和交换用户自创内容的互联网应用[1] 它包含交互式的应用和平台创建分享和交换用户生成内容是允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。所谓社交媒体应该是广大网民自发分享、提取、创造新闻资讯然后传播的过程。社交媒体的产生依赖的是Web2.0的发展现阶段主要包括社交网站、微博、微信、博客、论坛、播客等。类似的 Toni Ahlqvist等人认为社会化媒体概念包含三个关键元素即 Web2.0技术、用户自创内容UserGenerated Content UGC以及所产生的人际关系网[2]

社会化媒体发展目前社会化媒体的发展越来越迅速。社会化媒体已经在整个互联网中占据主流地位根据Alexa网站名称统计数据 当前世界访问量排名前十大网站中有五个是社会化媒体网站像Facebook、 Twitter、 YouTube等社会化媒体网站更可谓风靡全球家喻户晓[3] 。截至2014年5月 Facebook有近13亿的活跃用户其中包括超过10亿移动活跃用户。 目前已经有专门关注娱乐、运动、金融和政治的社会化媒体。

2中文分词技术

中文分词的概念中文分词就是将一段或一句中文字序列分成相对独立的词序列的过程[4] 。通过分词可以使句子以单个词语的形式出现从而使整个句子的语义简单化。

常用的中文分词算法目前常用的中文分词算法有基于字符串匹配的分词算法、基于词的频度统计的分词算法、基于知识理解的分词算法其中基于字符串匹配的分词算法主要包括最大正向匹配法和最大逆向匹配法。在对社会化媒体进行分析时笔者所采用的主要是基于字符串匹配的分词算法所用本文主要对基本字符串匹配的分词算法进行详细的介绍。

基于字符串匹配的分词算法是按照一定的策略将待切分的汉字字符串与一个“充分大”的机器词典中的词进行匹配[5] 也就是按照一定的策略在词典中进行对比查找。 目前基于字符串的分词算法主要有正向最大匹配算法及逆向最大匹配算法。

1最大正向匹配法Forward Maixmum Matching Method 通常简称FMM其思想是假定分词词典中的最长词条有s个汉字字符则用待切分文档的当前字串中的前i个字作为匹配字段在词典中进行查找。整个算法的思路如图1所示。

2逆向最大匹配法Revee Maximum Matching Method 通常简称为RMM法其基本原理与FMM法相同不同的是分词切分的方向与FMM法相反一个是从左至右的切分另一个是从右至左的切分并且它们使用的分词辞典排序方式也有所不同。其算法如图2所示。

3中文分词技术在社会化媒体分析中的应用

本文主要是对社会化媒体分析系统采集的数据采用一定的分词算法进行处理提炼出关键词为后期预测社会群体的交往意向和可能发生的行为结果 以及学生群体的思维模式和行为动机等提供一定的依据。

数据采集本文所用的数据来自项目组成员设计出来的社会化媒体分析系统采集的是南京大学论坛数据。在该数据采集平台中数据采集分为网址采集和内容采集两部分。

1网址采集。先进行网址采集根据采集到的网址再采集相应的帖子内容。 网址采集最多可分为四级采集 以南京大学论坛为例南京大学论坛使用二级采集就可以采集到论坛帖子的网址所有采集都是按照正则表达式来采集。在论坛中有精华帖、分页贴精华帖需要单独处理分页贴主要是针对帖子有多页的问题如上一页、下一页。

2 内容采集。采集到论坛的网址后根据帖子的网址就可以采集帖子内容。采集到论坛的网址后根据帖子的网址就可以采集帖子论坛一般关注的数据主要有标题、帖子内容、发帖以及回帖用户名、帖子存在的时间、帖子的关注度、讨论区等。该数据采集平台如图3所示采集的数据如图4所示。

分词处理通过最大正向匹配算法和最大逆向匹配算法对所采集的数据进行分词处理为提炼关键词奠定一定的基础。在分词处理的

过程中存在近义词和停用词是近义词的进行合并是停用词的把它过滤掉最后只留下关键词这些关键词通常是名词和动词。在整个数据整理过程中 因为很多论坛中的帖子语言很不规范语法结构很乱新词多所以分词也存在一定困难。

1最大正向匹配法处理实例。从采集的数据中抽取了部分数据进行分词实验例如待切分语句“我们急需提高英语口语及听力水平” 如果在词典中匹配只要匹配成功就切分出来那么这一句话切分的结果可能为“我们/急需/提高/英语口语/及/听力/水平” 。如果事先知道词典的最长词长那么将减少很多步骤从而提高分词速度。此处假设词典中最长词长为7整个匹配过程如表1所示。

2最大逆向匹配法处理实例。在对社会化媒体分析平台采用的数据进行分词处理的过程中除了采用最大正向匹配算法外还采用最大逆向匹配算法进行处理。例如待切分句子“求兼职新概念英语老师” 如果在词典中匹配只要匹配成功就切分出来那么这一句话切分的结果可能为“求/兼职/新/概念/英语/老师” 。在进行匹配时采用的是逆序词典假设词典中最常词长为7整个匹配过程如表2所示。

在分词的过程中本文主要采用最大正向匹配和最大逆向匹配相结合但是仍然存在一些问题如在对歧义词和未登录词进行处理时存在一定的瑕疵。在以后的研究中笔者会进一步着重处理歧义词和未登录词。

4结论

通过中文分词技术对社会化媒体分析系统采集的数据进行处理为后续关键词检索奠定一定的基础。今后笔者的努力方向是进行关键词检索对关键词进行统计分析 同时对分词之后的文本进行特征挖掘及分析为进一步预测社会群体的交往意向和可能发生的行为结果 以及学生群体的思维模式和行为动机等提供依据。

参考文献

[1]Kaplan A M Haenlein M. Use of the world unite Thechallenges and opportunities of Social Media[J] .BusinessHorizo 2010 3  59-68.

[2]World Wide Web[EB/OL] .httpcomputedatabase+management+%26+informat ion+retri eval/journal/

11280。

[3]王明会丁焰 白良.社会化媒体发展现状及其趋势分析[J] .信息通信技术 2011 5  10。

cera:秋季美国便宜VPS促销,低至24/月起,多款VPS配置,自带免费Windows

介绍:819云怎么样?819云创办于2019,由一家从2017年开始从业的idc行业商家创办,主要从事云服务器,和物理机器819云—-带来了9月最新的秋季便宜vps促销活动,一共4款便宜vps,从2~32G内存,支持Windows系统,…高速建站的美国vps位于洛杉矶cera机房,服务器接入1Gbps带宽,采用魔方管理系统,适合新手玩耍!官方网站:https://www.8...

Gcore(gcorelabs)俄罗斯海参崴VPS简单测试

有一段时间没有分享Gcore(gcorelabs)的信息了,这是一家成立于2011年的国外主机商,总部位于卢森堡,主要提供VPS主机和独立服务器租用等,数据中心包括俄罗斯、美国、日本、韩国、新加坡、荷兰、中国(香港)等多个国家和地区的十几个机房,商家针对不同系列的产品分为不同管理系统,比如VPS(Hosting)、Cloud等都是独立的用户中心体系,部落分享的主要是商家的Hosting(Virtu...

2021HawkHost老鹰主机黑色星期五虚拟主机低至3.5折 永久4.5折

老鹰主机HawkHost是个人比较喜欢的海外主机商,如果没有记错的话,大约2012年左右的时候算是比较早提供支付宝付款的主机商。当然这个主机商成立时间更早一些的,由于早期提供支付宝付款后,所以受众用户比较青睐,要知道我们早期购买海外主机是比较麻烦的,信用卡和PAYPAL还没有普及,大家可能只有银联和支付宝,很多人选择海外主机还需要代购。虽然如今很多人建站少了,而且大部分人都用云服务器。但是老鹰主机...

分词技术为你推荐
查看端口怎么查主机IP和网络端口?回收站在哪回收站 在c盘的路径赵雨润情人节“我们约会吧”电影DVD_我们约会吧高清DVD下载_qvod快播??赵雨润星辰变玩家可以成为星辰变演员?这是真的吗?在线漏洞检测如何查看网站的漏洞?百度手写百度手写显示百度手写百度如何手写:开机滚动条开机滚动条太多怎么办?iphone6上市时间苹果6是什么时候出的 ?网页打开很慢为什么我打开网页很慢
哈尔滨域名注册 域名备案信息查询 hostmonster Dedicated 外国服务器 回程路由 debian6 天猫双十一抢红包 java空间 老左来了 免费防火墙 91vps 免费全能主机 ca187 宏讯 西安服务器托管 dnspod 百度云空间 买空间网 汤博乐 更多