用户盘古搜索引擎

盘古搜索引擎  时间:2021-03-01  阅读:()
面向搜索引擎的互联网用户面向搜索引擎的互联网用户行为分析行为分析智能技术与系统国家重点实验室智能技术与系统国家重点实验室信息检索课题组信息检索课题组20092009年年1111月月1515日日FromFromAlexa.
comAlexa.
com搜索引擎面临的技术挑战搜索引擎面临的技术挑战用户&搜索引擎&万维网Result1Result2Result3Result10…QueryClickGoogle:I'mfeelinglucky搜索引擎面临的技术挑战搜索引擎面临的技术挑战用户层面–丰富的信息需求只能通过简短的查询来表示查询的平均长度为2-3个词构建复杂查询的尝试(W3QL,WebSQL等)以失败告终万维网层面–数据繁杂,质量参差不齐2002年,Web上所存储的数据超过500,000TB2008年,Google索引量声称超过1trillion网页冗余、过期、低质量乃至垃圾数据层出不穷如何解决如何解决借助用户的力量–用户查询:如何查询高考分–传统思路:查询分析与分类,关键词提取…–依靠用户的思路:百度知道如何解决如何解决借助用户的力量如何解决如何解决借助用户的力量–搜索质量与经济利益密切相关–群众的话不能不信,也不能全信–需要借助标注人员的过滤,反馈速度慢如何更好的借助用户的力量如何更好的借助用户的力量解决思路:用户群体的行为分析–隐式反馈与显式反馈(implicit/explicitfeedback)显式反馈–用户主动反馈–直接,对用户行为产生影响,少量隐式反馈–用户被动反馈–间接,不对用户行为产生影响,大量如何更好的借助用户的力量如何更好的借助用户的力量用户的点击都是有目的的从统计角度分析,用户点击背后所隐藏的是用户的语义信息如何更好的借助用户的力量如何更好的借助用户的力量用户行为的载体:日志数据–查询与点击日志用户提交的查询用户点击了哪些结果其他辅助信息–结果对应的排序–时间戳–用户点击的序列关系–用户SessionID(记录在Cookie里)如何更好的借助用户的力量如何更好的借助用户的力量用户行为的载体:日志数据–互联网访问日志用户当前正在访问的网页用户从此网页出发下一步访问的网页辅助信息–时间戳–用户SessionID(记录在Cookie里)–用户停留时间面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别用户信息需求分类–目的:依照信息需求对查询进行不同处理–用户查询分类体系(Broder&Roseetal.
)面向导航类需求的用户查询–用户检索时具有确定的检索目标页面–查找某个已知存在的页面/资源面向信息事务类需求的用户查询–用户检索时没有确定的检索目标页面–查找与某个主题相关的页面/资源基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别针对查询历史行为信息的特征提取–假设1(懒鬼假设):用户的检索需求是导航类型时,一般他只会点击很少数的几个答案进行导航类检索时,用户意识中有一个比较明确的查找目标他只会在结果页面中重点浏览与这个查找目标非常相关的URL或摘要内容,而不会点击其他的结果.
–特征:点击n次就满足的比例(nclickssatisfied)基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别nCS的分布情况基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别针对查询历史行为信息的特征提取–假设2(封面假设):用户的检索需求是导航类型时,一般他只会点击排名最靠前的几个答案检索系统导航类检索的性能一般都较高(MRR在80%以上)他很少有必要点击前几位之后的答案.
–特征:点击前n位就满足的比例(topnresultssatisfied)基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别nRS的分布情况基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别基于决策树学习的分类算法基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别识别结果–Sogou2006年2月全月查询和点击日志数据–共86,538,613条点击,涉及26,255,952个用户session–训练集:198个查询;测试集:233个查询0.
810.
850.
730.
860.
910.
71F-measure81.
54%86.
18%72.
84%85.
25%90.
71%66.
67%召回率81.
49%85.
62%73.
74%87.
65%91.
07%76.
00%精确率综合导航类信息事务类综合导航类信息事务类测试集合训练集合基于用户行为分析的查询推荐基于用户行为分析的查询推荐用户查询v.
s.
信息需求–长度短:英文搜索平均长度不超过3个单词–内容意义混淆不明:打字、俱乐部–信息需求不明确:魔兽争霸(下载资讯主页)查询推荐–协助用户重新组织查询,明确信息需求.
–当前主要思路:从已有用户查询中查找与当前查询相似(内容、点击)的查询基于用户行为分析的查询推荐基于用户行为分析的查询推荐问题–缺乏对用户信息需求的明确理解–死结搜索引擎查找与Q相似的查询推荐给用户推荐的结果与用户的需求有可能大相径庭查询Q无法准确表述信息需求2010公务员考试卡巴斯基201052010公务员报名实况足球201042010年考研报名2010国家公务员报名实况201032010发型2010年国家公务员报名qq201022010年国家公务员2010国家公务员职位表pes20101SogouGoogleBaidu#查询词:WWW2010基于用户行为分析的查询推荐基于用户行为分析的查询推荐解决思路–用户信息需求如何表达–用户进行点击时,并未阅读过页面的真实内容–用户点击=>对结果页面摘要内容的兴趣基于用户行为分析的查询推荐基于用户行为分析的查询推荐实验结果–基于百度、搜狗搜索引擎的查询推荐点击日志(2009.
09)–针对用户点击到的结果摘要进行关键词提取,生成的查询推荐内容能够吸引更多的用户点击–评价指标:点击比率、平均点击次数00先知出什么装备00永恒先知之戒41先知下载251电影先知21灾难先知30先知的圣物00先知装备00先知出什么90dota先知00死亡先知实际用户点击是否被算法推荐搜狗搜索引擎推荐结果结果样例:先知其他推荐结果:尼古拉斯凯奇高清纪伯伦(西方著名预言家)用户的查询行为信息分析用户的查询行为信息分析YiqunLiu,MinZhang,LiyunRuandShaopingMa,AutomaticQueryTypeIdentificationBasedonClickThroughInformation,AsiaInformationRetrievalSymposium,AIRS2006,BoZhou,MinZhang,ShaopingMa,YiqunLiu,LiyunRu,Log-MiningBasedQuerySpellingCorrectionforChineseSearchEngines,JournalofComputationalInformationSystems,Volume5,Number3,pp1225-1234,2009.
BoZhou,MinZhang,ShaopingMa,YiqunLiu,LiyunRu,QuerySpellingCorrectionForMulti-LanguageSearchEngines,JournalofComputationalInformationSystems,Volume5,Number3,pp1521-1528,2009.
面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估现状:链接结构分析算法为主–超链接在被链接的两个网页之间建立如下关系:内容推荐关系:页面A的作者推荐页面B的内容,且利用L的链接文本内容对B进行描述.
主题相关关系:被超链接连接的两个页面A与B比随机抽取的两个页面有更大的概率有内容相关性.
ABAB基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估以链接结构分析为基础的质量评估–链接结构数据本身质量存在问题2009Microsoft|ICP证合字B2-20050001号|隐私声明|使用条款|基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估4210www.
xinhuanet.
com39www.
sina.
com.
cn88blog.
sohu.
com1797www.
miibeian.
gov.
cn16www.
baidu.
com1,0625www.
tencent.
com1394labs.
adobe.
com23www.
qq.
com1,6552www.
hd315.
gov.
cn1391www.
adobe.
comRankedbyAlexa.
comtrafficrankinChinaRankedbyPageRankonSogouTWebSite北京市工商行政管理局信息产业部ICP/IP地址信息备案管理基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估解决思路–依靠用户行为对链接结构数据进行清理用户点击:个人兴趣、信息需求被用户点击的网页/链接比未被点击的部分更可靠–构建方式UserBrowsingGraph:只保留用户访问过的网页和用户访问过的链接User-orientedHyperlinkGraph:只保留用户访问过的网页,以及这些网页之间原始的链接关系基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估PageRank性能测试–ROC/AUC测试、网站对质量测试0.
50.
550.
60.
650.
70.
750.
80.
850.
90.
951HighQualityPageIdentificationSpamPageIdentificationPairwiseOrderednessAccuracyBG(V,E)user-HG(V,E)whole-HG(V,E)基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估YiqunLiu,YijiangJin,MinZhang,ShaopingMaandLiyunRu.
UserBrowsingGraph:Structure,EvolutionandApplication.
LatebreakingresultsessioninWSDM'09.
薛宇飞,刘奕群,张敏,马少平,茹立云.
基于用户浏览图的网页质量评估方法的比较分析.
全国第十届计算语言学学术会议(CNCCL-2009).
YiqunLiu,YufeiXue,RongweiCen,MinZhang,ShaopingMaandLiyunRu,WebPageQualityEstimationwithUserBehaviorAnalysis.
SubmittedtoACMTran.
Web.
基于用户行为分析的垃圾页面识别基于用户行为分析的垃圾页面识别垃圾页面:通过不正当的手段获取搜索引擎中不应有的较高排名的网页传统识别方法:针对垃圾页面作弊手段搜索引擎发现垃圾页面搜索引擎针对垃圾页面设计识别算法识别算法上线,垃圾页面被识别垃圾页面制造者制造垃圾基于用户行为分析的垃圾页面识别基于用户行为分析的垃圾页面识别解决思路:用户是垃圾网页最直接的受害者用户对垃圾的访问方式不同于其对正常页面的访问方式–搜索引擎引导比率:垃圾网页用户访问量主要是被搜索引擎引导的–页面点击交互比率:用户一般不会点击垃圾网页上的超链接–网站停留时间:用户不会在垃圾网站停留较长时间–……00.
10.
20.
30.
40.
50.
60.
70.
80.
90-0.
10.
1-0.
20.
2-0.
30.
3-0.
40.
4-0.
50.
5-0.
60.
6-0.
70.
7-0.
80.
8-0.
90.
9-1SEOVPercentageOrdinaryPageSpamPage基于用户行为分析的垃圾页面识别基于用户行为分析的垃圾页面识别准确性–P@300:94.
0%,ROC/AUC:0.
9150通用性–不局限作弊形式,能够发现新出现的作弊形式时效性–算法于2008年3月2日识别出1000个垃圾网站–3月6日索引量:3400万个页面;3月26日索引量:5900万个页面基于用户行为分析的垃圾页面识别基于用户行为分析的垃圾页面识别YiqunLiu,MinZhang,ShaopingMa,LiyunRu.
Userbehaviororientedwebspamdetection.
InProceedingofWWW'08.
YiqunLiu,RongweiCen,MinZhang,ShaopingMa,LiyunRu.
IdentifyingWebSpamwithUserBehaviorAnalysis.
TheFourthInternationalWorkshoponAdversarialInformationRetrievalontheWeb.
2008.
4.
HuijiaYu,YiqunLiu,MinZhang,LiyunRu,ShaopingMa,WebSpamIdentificationwithUserBrowsingGraph.
TobeappearedinAIRS'09面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价传统方式:基于手工进行答案标注–不同标注人员的判定标准差异:TREC2008某个子任务中,有58%的文档标注人员观点不一致–人力资源成本问题:一个规模为800万的文档集合,针对1个查询主题的相关性评判,需耗费1名标注人员9个月的工作时间解决方案:–通过对用户行为日志进行分析,无需标注–使用群体,而不是个体的点击行为作为依据基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价自动评价流程数据预处理查询分类信息类标注导航类标注搜索引擎结果抓取性能评价指标计算与反馈搜索引擎日志基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价针对导航类查询的结果自动标注–利用单个搜索引擎的点击信息即可完成–焦点假设:不同用户具有相同的导航类别检索需求时,他们的点击都会集中在其检索目标网页(或其镜像)上.
–网页r针对查询q的点击集中度–q的点击集中度最高的r即为其检索目标页面)(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus=基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价针对信息事务类查询需求的答案自动标注–以查询词"电影"为例不同搜索引擎的点击分布差异大存在着搜索引擎对用户行为的偏置性影响结果不唯一,全面性难以保证答案标注难度较大需要借助多个搜索引擎的用户行为信息进行标注00.
050.
10.
150.
20.
250.
30.
35123456789101112131415161718192021222324252627baidugoogleyahoosogou基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价针对信息事务类查询需求的答案自动标注–基于多搜索引擎用户行为挖掘1.
利用单搜索引擎用户行为进行各自独立的标注2.
借鉴Pooling做法,综合不同标注者(这里为搜索引擎用户的宏观行为)的意见–需要考虑的因素用户点击行为差异、用户访问量差异、搜索引擎相对重要性的差异∑=jjjiiqSEPqSEurlPqurlP)|(),|()|(基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价实验数据–Sogou搜索8个月查询日志(超过7亿条日志信息)–导航类评测结果:相关系数达到0.
965基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价实验数据–信息事务类评测结果–查询—结果对标注准确率近90%基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价如何处理只有较少量用户点击的冷门查询去除非正常的用户点击(abnormalusersessions)评价用户点击的可靠性0%10%20%30%40%50%60%70%0.
00.
0‐1.
01‐1.
581.
59‐22‐2.
58>2.
58DistributionClickEntropyValueWholeSetRelSet0%10%20%30%40%50%60%70%80%NoYesDistributionFirstClickinSessionWholeSetRelSet基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价基于用户可靠性分析的冷门查询性能评价00.
20.
40.
60.
8100.
20.
40.
60.
81Sum_Q1CTR_Q10.
20.
30.
40.
50.
60.
70.
80.
900.
20.
40.
60.
81Sum_Q4CTR_Q4Sum_Q5CTR_Q5热门查询性能冷门查询性能基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价中文搜索引擎性能评价平台"搜索仪"–http://searchE.
thuir.
cn/网络信息检索语料库构建网络信息检索语料库构建评测语料构成–文本语料:1.
387亿网页,存储空间约5Terabyte,对应的链接关系数据和SogouRank数据.
–查询语料:2008年6月查询量最大的10000个用户查询,占当月用户查询总量的56%.
–标注语料:利用用户行为分析技术,自动标注65465个答案,抽样检查发现正确率在95%左右–满足中文互联网信息检索研究各方面需求网络信息检索语料库构建网络信息检索语料库构建目前已经发放近40个拷贝基于用户行为分析的搜索引擎评价基于用户行为分析的搜索引擎评价YiqunLiu,YupengFu,MinZhang,ShaopingMa,LiyunRu.
AutomaticSearchEnginePerformanceEvaluationwithClick-throughDataAnalysis.
ProceedingsofWWW'07.
RongweiCen,YiqunLiu,MinZhang,LiyunRu,BoZhou,ShaopingMa.
ExploringRelevanceforClicks.
ProceedingsofCIKM'09RongweiCen,YiqunLiu,MinZhang,LiyunRu,ShaopingMa.
StudyontheClickContextofWebSearchUsersforReliabilityAnalysis.
ToProceedingsofAIRS'09.
RongweiCen,YiqunLiu,MinZhang,LiyunRu,ShaopingMa.
AutomaticSearchEnginePerformanceEvaluationwiththeWisdomofCrowds.
ProceedingsofAIRS'09.
站在搜索引擎的角度观察世界站在搜索引擎的角度观察世界流感发病趋势预测–http://www.
google.
com/trends/flu–当地查询日志可以用于预测此地流感发病趋势Black:GoogleTrendsRed:CDCdataJeremyGinsberget.
al.
Detectinginfluenzaepidemicsusingsearchenginequerydata,Nature,Vol457,19February2009站在搜索引擎的角度观察世界站在搜索引擎的角度观察世界Googletrends实验–卫生部公布的肺结核发病数据V.
S.
Googletrends中国范围内的"肺结核"查询趋势00.
20.
40.
60.
811.
212345678910111213GoogleTrends卫生部统计Correlation=0.
91站在搜索引擎的角度观察世界站在搜索引擎的角度观察世界手足口病发病趋势预测–北京市疾病防控中心数据vs.
来自北京IP的Sogou疾病症状查询数据00.
10.
20.
30.
40.
50.
60.
70.
80.
912.
23-3.
13.
2-3.
83.
9-3.
153.
16-3.
223.
23-3.
293.
30-4.
54.
6-4.
12疾病防控中心数据搜索引擎数据Correlation=0.
93面向搜索引擎的用户行为分析面向搜索引擎的用户行为分析总结–改进搜索引擎算法–评价搜索引擎性能未来工作–用户信息需求分析心理学模型,社会文化模型的融合–基于用户行为方法理解互联网数据–站在搜索引擎的角度观察世界Thankyou!
Questionsorcommentshttp://www.
thuir.
cn/THEENDTHEEND

月神科技-美国CERA 5折半价倒计时,上新华中100G高防云59起!

官方网站:点击访问月神科技官网优惠码:美国优惠方案:CPU:E5-2696V2,机房:国人热衷的优质 CeraNetworks机房,优惠码:3wuZD43F 【过期时间:5.31,季付年付均可用】活动方案:1、美国机房:洛杉矶CN2-GIA,100%高性能核心:2核CPU内存:2GB硬盘:50GB流量:Unmilited端口:10Mbps架构:KVM折后价:15元/月、150元/年传送:购买链接洛...

瓜云互联:全场9折优惠,香港CN2、洛杉矶GIA高防vps套餐,充值最高返300元

瓜云互联怎么样?瓜云互联之前商家使用的面板为WHMCS,目前商家已经正式更换到了魔方云的面板,瓜云互联商家主要提供中国香港和美国洛杉矶机房的套餐,香港采用CN2线路直连大陆,洛杉矶为高防vps套餐,三网回程CN2 GIA,提供超高的DDOS防御,瓜云互联商家承诺打死退款,目前商家提供了一个全场9折和充值的促销,有需要的朋友可以看看。点击进入:瓜云互联官方网站瓜云互联促销优惠:9折优惠码:联系在线客...

wordpress公司网站模板 wordpress简洁高级通用公司主题

wordpress公司网站模板,wordpresss简洁风格的高级通用自适应网站效果,完美自适应支持多终端移动屏幕设备功能,高级可视化后台自定义管理模块+规范高效的搜索优化。wordpress公司网站模板采用标准的HTML5+CSS3语言开发,兼容当下的各种主流浏览器: IE 6+(以及类似360、遨游等基于IE内核的)、Firefox、Google Chrome、Safari、Opera等;同时...

盘古搜索引擎为你推荐
ovOV摄像头是哪个国家的苏州商标注册苏州如何申请商标注册?正则表达式javajava正则表达式安卓应用平台安卓系统支持的软件并不是那么多,为什么这么多人推崇?童之磊网文大学很强吗?xp系统停止服务XP系统为什么要停止服务?idc前线钢铁雄心2修改器网页打开很慢如何解决网速正常 网页打开很慢问题bluestackbluestacks下载的东西在哪云挂机云挂机每天2+元你提了吗?
紧急升级请记住新域名 高防服务器租用qy qq空间域名 免费申请域名和空间 博客主机 permitrootlogin 申请空间 美国十次啦服务器 免费mysql 北京双线机房 日本bb瘦 789电视 域名接入 qq对话框 网通服务器托管 metalink 微软服务器操作系统 33456 卡巴斯基是免费的吗 登陆qq空间 更多