!电子技术应用"

网站布局  时间:2021-02-24  阅读:()
!
"!
"年第#$卷第%!
期!
引言在互联网大数据时代!
互联网信息呈现爆炸式增长!
其中蕴藏着很多有价值的重要信息需要处理与利用"通过智能化的大数据信息挖掘处理!
可以从中分析把握技术发展的方向态势!
迅速发现高价值的科技信息"从关注的网站源自动采集收集新发布的信息!
并提取出其中的结构化信息!
是建立互联网大数据系统的基础"通过网络爬虫系统可以从各类网站爬取大量的网页数据!
但传统的网站信息整页采集方式信息混杂!
无法直接进行大数据挖掘处理!
而人工从网页中提取结构化的文本信息又存在成本高#工作效率低的问题"如何通过自动化的网页数据结构化信息采集技术实现自动从网页中提取结构化的信息!
是进行互联网大数据挖掘处理的关键预处理技术"本文研究针对传统的网站信息整页采集方式存在采集信息混杂#无法直接使用!
而人工结构化采集方式成本高#工作效率低的问题!
研究实现了一种基于&'(树的网页结构化信息提取方法01/,23-4/5#%67#6%/08"9:7#=:"!
@15ABC!
实现了一个网页结构化信息提取服务工具包!
该工具包极大地提高了网站结构化信息采集处理的自动化水平和处理效率""网页信息提取技术概述网页结构化信息提取是指从网页中提取出结构化的文本数据信息"对于列表类#导航类网页提取的数据包括$标题#链接地址#发布日期#频道栏目名称等%对于内容类网页提取的数据包括$标题#发布日期#作者#正文#频道栏目名称#首图等"网页信息提取方法主要包括$基于统计的技术#基于视觉特性的技术#基于&DE一种自适应网页结构化信息提取方法淮晓永#韩晓东#高若辰#高焕新)华北计算机系统工程研究所!
北京FGGGHIC摘要!
面向互联网信息采集挖掘应用#针对传统的网站信息整页采集方式存在采集信息混杂$无法直接使用#而人工结构化采集方式成本高$工作效率低的问题#研究提出了一种自适应网页结构化信息提取方法#实现了网页分类算法$基于子树的标题项$内容项的结构化信息提取算法%基于典型网站网页分类标注数据集进行分类模型的学习建模#可以自适应不同网站的差异#对网页进行分类#按照网页分类分别提取出网页中的列表项结构化信息$内容项结构化信息%该技术对提高网站信息结构化采集处理的自动化水平及处理效率具有重要作用%关键词!
信息提取&结构化信息&分类模型&自适应中图分类号!
JKLFLMN%JOILFMF文献标识码!
P#$%!
FGMFQFNRSTM=.
.
"MGUNH2RLLHMUGGFQG中文引用格式!
淮晓永!
韩晓东!
高若辰!
等M一种自适应网页结构化信息提取方法VWXM电子技术应用!
UGUG!
YQZFUC$LR2FGUM英文引用格式!
[6-40:"4!
_-:'6:7a/"!
/#-bMP"-0-3#=c/;/#a:09:%/#%-7#="4.
#%67#6%/0="9:9%:;d/,3b/7#%:"=7f/7a"=g6/!
UGUG!
YQZFUC$LR2FGUMP"-0-3#=c/;/#a:09:%/#%-7#="4.
#%67#6%/0="9:9%:;d/,3-4/.
[6-4!
0:"4!
h-:'6:7a/"!
_-:i6-"="ZK-#=:"-bj:;36#/%k].
#/;>"4="//%="4'/.
/-%7aA".
#=#6#/:9ja="-!
l/=T="4FGGGHI!
ja="-CA":%0/a/"//0.
:9A"9:7:bb/7#=:"-"0;="="4m-=;="4-##a/3%:,b/;.
:9#%-0=#=:"-bd/,.
=#/="9:7:bb/7#=:";/#a:0.
m.
67a-.
;=/07:bb/7#=:"="9:%;-#=:"m6"-,b/#:,/6.
/00=%/7#b]m-"0#a/a=4a7:.
#-"0b:d/99=7=/"7]:9;-"6-b.
#%67#6%/07:bb/7#=:";/#a:0m#a=.
3-3/%3%:3:0-3#=c/;/#a:09:%/#%-7#="4.
#%67#6%/0="9:9%:;d/,3-4/.
M1/=;3b/;/"#d/,3-4/7b-.
.
=9=7-#=:"-b4:%=#a;m.
6,0#=#b/07:67#6%/0="9:7#=:"-b4:!
%=#a;Ml-.
/0:"#a/7b-.
.
=9=7-00-#-.
/#:9#]3=7-bd/,.
=#/3-4/.
m#a/7b-.
.
=9=7-#=:";:0/b7-"-0-3##:#a/0=99/%/"7/.
:9c-%=:6.
d/,.
=#/.
m7b-.
.
=9]#a/d/,3-4/.
m-"0/#%-7##a/b=.
#.
#%67#6%/0="9:07:67#6%/0="9:a/d/,3-4/.
-77:%0="4#:#a/d/,3-4/7b-.
.
=9=7-#=:"Mfa=.
#/7a":b:4]3b-3:b/="=;3%:c="4#a/-6#b/c/b-"03%:!
7/.
.
="4/99=7=/"7]:9d/67#6%/0="9:7:bb/7#=:"-"03%:7/.
.
="4M-.
/01*2(!
="9:7#=:"%.
#%67#6%/0="9:7b-.
.
=9=7-#=:";:0/b%-0-3#=c/计算机技术与应用31456).
*7.
,891:1;/+92%)(&55:Z个典型网站$通过人工标注了>ZZZ个网页$建立了网页分类标注数据库$并将数据库分为训练数据集和测试数据集!
根据节点分类目标$设计采用如图>所示的神经网络节点分类模型$输入为各信息节点的特征属项集%计算机技术与应用+,-.
/01231456,7,89:6;'04:0>,64"0-1/@$23A为节点类别9B;对输入>归一化处理#,3.
/,-C/D6-E&14'1&'176&DD3.
FGH3.
H-C*6-E&19;>/,3.
H-C4,3.
/,-C/D6-E&1GI3(/(1-.
DI71,9>;9/,3.
H-C!
A;9J;保存训练后的模型参数$K建立了节点分类模型后!
根据节点分类模型!
可以通过节点分类算法进行网页LMH树的节点分类计算!
识别出其中的$5%67.
(类节点"LMH树节点分类算法如下#输入#网页LMH树输出#含节点分类信息的网页LMH树步骤#89:;对于网页LMH树中的每个节点!
计算其特征属性向量#>34"0-1/@$29B;进行网页特征属性数据的归一化处理#>/,3.
H-C43.
/,-C/D6-E&1GI3(/(1-.
DI71,9>;9/,3.
H-C"N2;K列表类网页的OMH树一般含有若干个列表子树$P9示意图见图*,#从其子节点中提取作者信息@#99!
!
9,23,()网页类别为内容类网页1.
*+,-'从内容节点提取内容信息A7-*#从内容子树中提取标题信息/#从内容子树中提取日期信息>*,#从内容子树中提取作者信息@#99!
"#网页信息提取处理流程网页信息提取的处理流程如图B所示"网页信息提取结果采用CD#;格式描述$示例如下!
'E@=2E:F@=2GHH网页的5I4地址EJK,E:E页面源码EGEJK,F*LJ,E:F.
/GHH/.
G1.
G5-6-78-E*(*2,3E:M'E*(*2,E:E标题NEGE+=,)E:E链接地址NEGE@E:E作者姓名EGE>*,E:EOPNQRSRNE9G'E*(*2,E:E标题OEGE+=,)E:E链接地址OEGE@E:E作者姓名E9G图T信息子树图%&列表节点子树%U&内容子树计算机技术与应用0%123/45)67''08-3)8%/6NPP!
电子技术应用"!
"!
"年第#$卷第%!
期!
!
"#$%&#'(内容页标题#"栏目#"#0-#'#发布者#"#$0),#'#发布日期#"#.
0*/1*.
2#'#首图#"内容#"#3,45%6$7#'#关键词8"关键词9":::#;;!
"#网页信息提取服务本文基于上述的@网页结构化信息提取方法"研制了一个网页结构化提取应用服务"实现了A>BCDEFG协议#>BHF协议的网页分类$,),&)1I02,)4,#网页结构化信息提取,J)60&)1I02,*/K%服务接口"如图L所示$该服务已应用于互联网信息挖掘系统中作为其网页数据采集的关键预处理模块$$算法性能测试分析测试环境%8台主流中端性能服务器&硬件基本配置为%9J@MGFN#LOPQ内存#ORQ硬盘#8SSSTUV7网卡&软件基本配置%NU-/)-8L:SO"@算法的准确度指标为%网页分类\8^S:_"结构化信息提取\8^S:'"能够满足工程应用的技术指标要求'Z9[测试9%对不同网站的自适应性测试选择'个网站"分别从各网站随机抽取MS条数据计算各网站数据的分类和信息提取的\8值"测试数据结果如图'所示'测试数据表明针对不同的网站"@算法能够适应不同的网站进行网页分类与结构化信息提取"\8值能够满足技术指标要求"网页分类\8^S:_"结构化信息提取\8^S:''#结论本文面向网站网页数据的结构化信息采集技术需求"研究提出了基于网页@"主要技术特点如下%Z8[自适应网页分类模型通过构建典型网站的网页图M网页结构化信息提取处理流程图L@网页信息提取服务图W随机8S次抽样测试\8值8S:_MS:_S:'MS:'S:WMS:W\889YOMLW'_8S\8a]F!
\8aGF!
\8aR!
\8aG!
测试顺序计算机技术与应用0&1&234056*78((19.
4*9&078S8!
电子技术应用"!
"!
"年第#$卷第%!
期欢迎网上投稿进一步提高和完善人体骨架姿势的正确性!
参考文献0(1(",(/2345"6789:;@6967A>7B8C@D>EFBA=G6H7IG878EE6AG6DCGD78>C68>GAH7DC89F9AJ!
K#:.
=8E68>GLDDA>%A=HE"MN"O"PNQRS#MTUVWWXY!
W#*I6>EZD8A"[E\D>"08>E0D"6789:R5&HA7D7DA>E]D>6C7!
%#:WN^W_7I.
>76B>87DA>89%A>FV6B6>C6A>.
>7699DE6>7&V,8CID>64\76=8>G%\'6B>67DCQ.
&,V4%S"WN^W#R__VR_UY!
R#&3)*a"&()/[.
ba("/31cK"6789YR5HA67B8C@D>EAFJ89@6B8=AdD>EH987FAB=!
%#Y%A=H8>Ge8776B>)6CAE>D7DA>'AB@IAH"WN^^#WfVRXY!
_#钱!
"马旭东"戴先中Y基于抽象隐马尔科夫模型的运动行为识别方法!
K#Y模式识别与人工智能"WgNfQRS#_RRV_RfY!
h#孙冰岩"曹琦"王星Y基于&86C7的人体姿势识别方法在舞蹈训练中的应用!
i#Y哈尔滨#黑龙江大学"WN^hY!
U#胡小华"李向攀"祁洋阳Y可穿戴式人体姿态检测系统设计!
K#Y电子技术应用"WN^U"_RQfS#^RV^XY!
j#王晓琳Y基于计算机视觉的手势识别人机交互技术!
i#Y杭州#浙江工业大学"WN^NY!
f#张""杨丰墒Y基于深度学习的图像分类搜索系统!
K#Y电子技术应用"WN^f"_hQ^WS#h^VhhY!
^N#冷晶晶Y基于]D>6C7骨架信息的人体动作识别!
K#Y数字技术与应用"WN^_QfS#jNY!
^^#战荫伟"于芝枝"蔡俊Y基于]D>6C7角度测量的姿势识别算法!
K#Y传感器与微系统"WN^_"RRQUS#^WfV^RWYQ收稿日期#WNWNVNWVWhS作者简介!
杨海清Q^fU^VS"男"副教授"主要研究方向#无线传感和网络控制技术及应用%钱涛Q^ff_VS"男"硕士研究生"主要研究方向#无线传感技术!
Q上接第fX页S分类标注数据库"进行分类模型的训练学习"使得分类模型能够具有较高的普遍性"能够自适应不同的网站样式的差异&QWS基于子图上下文的结构化信息提取方法"通过列表子树'内容子树来提取相应的网页标题项'内容项结构化信息"并通过日期提取'实体提取进行信息验证"从而保证了较高的结构化信息提取准确率!
参考文献!
^#c3e/(4"](.
4b)cYik,V'86GCA>76>76l7B8C7DA>AF&/,aGAC7!
m#YeBAC66GD>EAF7I6^W7I'AB9G'DG6'6'mA>F6B6>C6Y16J0AB@#(m,eB6"WNNR#WNUVW^_Y!
W#孙承杰"关毅Y基于统计的网页正文信息抽取方法的研究!
K#Y中文信息学报"WNN_"^jQhS#^UVWWY!
R#m8Di6>E"0E"'6>KDBA>E"6789YL.
e4#8dDDA>'86G8E66E=6>787DA>89EABD7I=!
)nka#YQWNNRV^^S!
WNWNVNRVNR#YI77H#nnB668BCIY=DCBAAF7YCA=n8HHnH97Y8HloDGpUNNWUYHGFY!
_#'8>EKD\D>E"akm&kL4]0[&Yi878VBDCI6C7DA>6l7B8C7DA>FBA=&/,aH8E6!
m#YeBAC66GD>EAF7I6RBG.
>76B>87DA>89mA>F6B6>C6A>'6'.
>FAB=87DA>4\76=b>ED>66BD>EY'8ID>E7A>im#.
bbbmA=H>6B#7AJ8BG8FBA=98BE6'6'D76!
m#YeBAC66GD>EAF7I6WU7ILairmA>F6B6>C6Y48>[B8>CDCA#,ABE8>]8>e<'9DI6B"WNN^#^NfV^^jY!
X#欧建文"董首斌"蔡斌Y模板化网页主题信息提取方法!
K#Y清华大学学报Q自然科学版S"WNNh"_hQfS#^U_RV^U_UY!
U#张彦超"刘方"李勇"等!
基于自动生成模板的'6'信息提取技术!
K#Y北京交通大学学报Q自然科学版S"WNNf"RRQhS#_NV_h!
!
j#郑长松"傅彦"余莉Y基于模板的'6'信息自动抽取方法!
K#Y计算机应用研究"WNNf"WXQWS#hUNVhjWY!
f#陈治昂"周知予"李大学Y一种基于模板的快速网页文本自动抽取算法!
K#Y计算机应用研究"WNNf"WXQUS#WX_XVWX_fY!
^N#杨少华"林海略"韩燕波Y针对模板生成网页的一种数据自动抽取方法!
K#Y软件学报"WNNj"^fQWS#WNfVWWRYQ收稿日期#WNWNVNRVNRS作者简介!
淮晓永Q^fURVS"男"博士"高级工程师"主要研究方向#智能软件工程'云计算!
韩晓东Q^ff_VS"男"硕士"工程师"主要研究方向#计算机软件'人工智能!
高若辰Q^ffXVS"女"硕士研究生"主要研究方向#智能信息处理!
图j不同网站测试[^值^NYfhNYfNYjhNYjNYUhNYU[^^WR_hXUj[^!
ae#[^!
me#m#网站计算机技术与应用0,12&34$$-5*0&5",3^NW版权声明经作者授权,本论文版权和信息网络传播权归属于《电子技术应用》杂志,凡未经本刊书面同意任何机构、组织和个人不得擅自复印、汇编、翻译和进行信息网络传播.
未经本刊书面同意,禁止一切互联网论文资源平台非法上传、收录本论文.
截至目前,本论文已经授权被中国期刊全文数据库(CNKI)、万方数据知识服务平台、中文科技期刊数据库(维普网)、DOAJ、美国《乌利希期刊指南》、JST日本科技技术振兴机构数据库等数据库全文收录.
对于违反上述禁止行为并违法使用本论文的机构、组织和个人,本刊将采取一切必要法律行动来维护正当权益.
特此声明!
《电子技术应用》编辑部中国电子信息产业集团有限公司第六研究所

2022年最新PHP短网址生成系统/短链接生成系统/URL缩短器系统源码

全新PHP短网址系统URL缩短器平台,它使您可以轻松地缩短链接,根据受众群体的位置或平台来定位受众,并为缩短的链接提供分析见解。系统使用了Laravel框架编写,前后台双语言使用,可以设置多域名,还可以开设套餐等诸多功能,值得使用。链接: https://pan.baidu.com/s/1ti6XqJ22tp1ULTJw7kYHog?pwd=sarg 提取码: sarg文件解压密码 www.wn7...

SugarHosts糖果主机六折 云服务器五折

也有在上个月介绍到糖果主机商12周年的促销活动,我有看到不少的朋友还是选择他们家的香港虚拟主机和美国虚拟主机比较多,同时有一个网友有联系到推荐入门的个人网站主机,最后建议他选择糖果主机的迷你主机方案,适合单个站点的。这次商家又推出所谓的秋季活动促销,这里一并整理看看这个服务商在秋季活动中有哪些值得选择的主机方案,比如虚拟主机最低可以享受六折,云服务器可以享受五折优惠。 官网地址:糖果主机秋季活动促...

MineServer:洛杉矶CN2 GIA VPS/512MB内存/20GB NVME/800GB流量/200Mbps/KVM,58元/季

mineserver怎么样?mineserver是一家国人商家,主要提供香港CN2 KVM VPS、香港CMI KVM VPS、日本CN2 KVM VPS、洛杉矶cn2 gia端口转发等服务,之前介绍过几次,最近比较活跃。这家新推出了洛杉矶CN2 GIA VPS,512MB内存/20GB NVME/800GB流量/200Mbps/KVM,58元/季,并且进行了带宽升级,同时IP更改为美国IP。点击...

网站布局为你推荐
cornerradius怎么用代码写一个圆角矩形?博客外链求博客外链方法照片转手绘美图秀秀可以照片转手绘吗?是手机版的ps抠图技巧ps抠图多种技巧,越详细越好,急~~~~~~~今日热点怎么删除千牛里面的今日热点怎么取消_?申请证书求高手教下怎么申请证书硬盘人硬盘是指什么人硬盘人什么叫“软盘人”和“硬盘人”?mate8价格华为mate8市场价多少系统分析员考系统分析员有什么好处?
raksmart 12u机柜尺寸 域名转向 刀片服务器的优势 183是联通还是移动 114dns 阿里云个人邮箱 新疆服务器 godaddyssl winds 卡巴斯基免费下载 跟踪路由 赵荣博客 西安电信测速网 电脑主机打不开 堡垒主机 国内免备案cdn 六维空间登陆首页 美国主机购买 个人web服务器 更多