查询大数据综合案例-搜狗搜索日志分析

alexa搜  时间:2021-01-08  阅读:()

1.数据处理

扩展脚本 年月日vim log-extend.sh

[root@master~]#bash log-extend.sh sogou.500w.utf8 sogou_log.txt 过滤脚本过滤搜索为空

Vim log-fi lter.sh

[root@master~]#bash log-fi lter.sh sogou_log.txt sogou_log.txt.flt

1.上传文件到h d fs

基于HIve构建日志数据的数据仓库

创建数据库hive>create database sogou;

使用数据库

Hive>use sogou;

创建扩展4个字段年、月、 日、小时数据的外部表hive>CREATE EXTERNALTABLE sogou_data(ts string,uid string,keyword string,rankint,sorder int,url string,year int,month int,dayint,hour int)

>ROWFORMATDELIMITED

>FIELDSTERMINATED BY'\t'

>STORED ASTEXTFILE;

OK

Timetaken:0.412seconds

Hive表加载数据load data inpath'/home/sogou_log.txt.flt' intotable sogou_data;

创建带分区的表hive>CREATE EXTERNALTABLE sogou_partitioned_data(ts string,uid string,keyword stringrankint,sorder int,url string)

>PARTITIONED BY(year int,monthint,dayint,hour int)>ROWFORMATDELIMITED

>FIELDSTERMINATED BY'\t'

>STORED ASTEXTFILE;

设置动态分区hive>set hive.exec.dynamic.partition.mode=nonstrict;hive> INSERT OVERWRITE TABLE sogou_partitioned_data partition(year,month,day,hour)SELECT* FROM sogou_data;

查询测试

Hive>select *from sogou_data l imit 10;

hive>select *from sogou_data l imit 10;

hive>select*from sogou_data where uid='6961d0c97fe93701fc9c0d861d096cd9';

(1)查询总条数hive>select count(*) from sogou_partitioned_data;

OK

5000000

(2)非空查询条数hive>select count(*) from sogou_partitioned_data where keyword is not nul l and keyword!=' ';

5000000

Time taken:28.606 seconds, Fetched: 1 row(s)

(3)无重复总条数hive> select count(*) from(select count(*) as no_repeat_count from sogou_partitioned_data group byts,uid,keyword,url having no_repeat_count=1)a;

OK

4999272

Time taken: 101.228 seconds, Fetched: 1 row(s)

(4)独立UID总数hive>select count(distinct(uid)) from sogou_partitioned_data;

OK

1352664

Time taken:44.639 seconds, Fetched: 1 row(s)

实现数据分析需求二关键字分析

(1)查询频度排名频度最高的前50词hive> select keyword,count(*)query_count from sogou_partitioned_data group by keyword orderby query_countdesc l imit50;

Total MapReduceCPUTimeSpent: 1 minutes4seconds510msec

OK

百度 38441baidu 18312

人体艺术 14475

4399小游戏 11438qq空间 10317

优酷 10158

新亮剑 9654

馆陶县县长闫宁的父亲 9127

公安卖萌 8192

百度一下你就知道7505

百度一下 7104

4399 7041

魏特琳 6665qq网名 6149

7k7k小游戏 5985

黑狐 5610

儿子与母亲不正当关系 5496

新浪微博 5369

李宇春体 5310

新疆暴徒被击毙图片 4997hao123 4834

123 4829

4399洛克王国 4112qq头像 4085nba 4027

龙门飞甲 3917qq个性签名 3880

张去死 3848cf官网3729

凰图腾 3632

快播 3423

金陵十三钗 3349

吞噬星空 3330dnf官网 3303

武动乾坤 3232

新亮剑全集 3210

电影 3155

优酷网 3115

两次才处决美女罪犯 3106

电影天堂 3028

土豆网 2969qq分组 2940

全国各省最低工资标准 2872

清代姚明 2784youku 2783

争产案 2755dnf 2686

12306 2682

身份证号码大全 2680

火影忍者 2604

Time taken: 119.195 seconds, Fetched:50 row(s)

实现数据分析需求三 UID分析

(1)查询次数大于2次的用户总数hive> select count(*) from(select count(*) as query_count from sogou_partitioned_data groupby uid having query_count>2)a;

OK

546353

Timetaken:69.837 seconds, Fetched: 1 row(s)

(2)查询次数大于2次的用户占比

A:hive> select count(*) from(select count(*) as query_count from sogou_partitioned_data groupby uid having query_count>2)a;

OK

546353

Timetaken:69.837 seconds, Fetched: 1 row(s)

Bhive>select count(distinct(uid)) from sogou_partitioned_data;

OK

1352664

A/B hive>select 546353/1352664;

OK

0.40390887907122536

Timetaken:0.255 seconds, Fetched: 1 row(s)

(3) rank次数在10以内的点击次数占比rank既是第四列的内容

A:

hive>select count(*) from sogou_partitioned_data where rank<11;

4999869

Time taken:29.653 seconds, Fetched: 1 row(s)

B:hive>select count(*) from sogou_partitioned_data;

5000000

A/B hive>select 4999869/5000000;

OK

0.9999738

(4)直接输入URL查询的比例

A:hive>select count(*) from sogou_partitioned_data where keyword l ike '%www%';

OK

73979

B:hive>select count(*) from sogou_partitioned_data;

OK

5000000

A/B hive>select 73979/5000000;

OK

0.0147958

实现数据分析需求四独立用户行为分析

(1)查询搜索过”仙剑奇侠传“的uid并且次数大于3hive> select uid,count(*) as cnt from sogou_partitioned_data where keyword='仙剑奇侠传'groupby uid havingcnt>3;

UCloud:美国云服务器,洛杉矶节点大促,低至7元起/1个月

ucloud美国云服务器怎么样?ucloud是国内知名云计算品牌服务商家,目前推出全球多地机房的海外云服务器。UCloud主打的优势是海外多机房,目前正在进行的2021全球大促活动参与促销的云服务器机房就多达18个。UCloud新一代旗舰产品快杰云服务器已上线洛杉矶节点,覆盖北美和亚太地区,火热促销中, 首月低至7元,轻松体验具备优秀性能与极高性价比的快杰云服务器。点击进入:ucloud美国洛杉矶...

阿里云金秋上云季,云服务器秒杀2C2G5M年付60元起

阿里云(aliyun)在这个月又推出了一个金秋上云季活动,到9月30日前,每天两场秒杀活动,包括轻量应用服务器、云服务器、云数据库、短信包、存储包、CDN流量包等等产品,其中Aliyun轻量云服务器最低60元/年起,还可以99元续费3次!活动针对新用户和没有购买过他们的产品的老用户均可参与,每人限购1件。关于阿里云不用多说了,国内首屈一指的云服务器商家,无论建站还是学习都是相当靠谱的。活动地址:h...

A400:36元/季,16.8/月kvm架构,线路优质,延迟低

A400互联是一家成立于2020年的商家,主要推行洛杉矶服务器采用kvm架构,线路优质,延迟低,稳定性高!全场产品对标腾讯云轻量,服务器线路有有美国洛杉矶cn2_gia、香港cn2+cmi,目前推行的vps服务器均为精心挑选的优质线路机房,A400互联推出了夏季优惠洛杉矶5折、香港7折促销活动,质量可靠,价格实惠!二:优惠码洛杉矶五折优惠码:20210620香港cn2七折优惠码:0710三、优惠方...

alexa搜为你推荐
电信主机租用电信云主机是什么业务?国外空间租用国内和海外空间 域名 服务器托管 租用me域名me域名怎么样?重庆虚拟空间现在重庆那家主机空间最好?免费网站空间申请哪个网站可以申请免费的网页空间山东虚拟主机400电话哪家代理商办理得比较好下载虚拟主机虚拟机下载完之后如何安装最好的虚拟主机谁来推荐一下哪里的虚拟主机比较好虚拟主机测评虚拟主机哪个最好长沙虚拟主机长沙点航网络科技有限公司怎么样?
下载虚拟主机 中文域名申请 256m内存 海外服务器 免费cdn加速 青果网 500m空间 河南服务器 网站卫士 网通服务器托管 免费mysql数据库 腾讯总部在哪 空间登陆首页 我的世界服务器ip 重庆服务器 .htaccess windowsserver2008 cdn加速 hosting 侦探online 更多