商品图片文字识别
图片文字识别 时间:2021-05-09 阅读:(
)
A题题题题电商平台电商平台电商平台电商平台图片中文字的识别图片中文字的识别图片中文字的识别图片中文字的识别一、一、一、一、背景:背景:背景:背景:由于电子商务环境下用户无法接触商品实物,电商网站提供的商品信息是用户做出购买决定的重要依据.
不同的电商平台展现商品信息的风格虽然各有不同,总的来说商品信息除了一部分以文本、表格形式给出外,越来越多地以图片的形式呈现.
图1是京东商城上某电水壶商品页面的示例.
图1、京东商城的某商品页面京东商城商品页面中的"规格参数"部分以文本表格的形式给出了商品的常规属性,对特定的商品类目这部分往往有比较固定的内容格式,如图2所示.
图2、某品牌电水壶的规格参数信息京东商城的"商品介绍商品介绍商品介绍商品介绍""""部分主要以图片列表的形式提供有关商品的更多信息,包括商品独特的独特的独特的独特的设计设计设计设计特点特点特点特点、商品的商品的商品的商品的优势优势优势优势、适用场景适用场景适用场景适用场景等.
商品信息图片提供了很多"规格参数"部分未包含的商品信息,是顾客了解和选择商品的重要参考,如图3所示.
图片是一种更为生动和形象的视觉表达方式,但也为电子商务网站的管理者带来了技术上的挑战.
电商平台对商家发布的商品信息有严格的管理规范,如《京东开放平台禁发商品及信息管理规范》:http://help.
jd.
com/Vender/viewQuestion-852-2011.
html和《京东开放平台商品标题及广告语发布规范》http://help.
jd.
com/Vender/viewQuestion-852-2687.
html.
在这里,我们主要考虑商品信息图片中的文本信息的管理问题:图片中的文本以光学字符的形式表达,不能使用计算机直接检索和处理.
最常见的问题是,商品信息图片中的内容和商品规格参数中的内容不一致.
例如某电热水壶产品规格参数中标明材质为"拉丝不锈钢",而商品信息图片中介绍为304不锈钢.
这将造成用户理解上的困扰:到底哪一个是准确的呢实际上"拉丝"是不锈钢的一种表面处理工艺,"拉丝不锈钢"并没有说明所采用不锈钢材料的成分所符合的国家标准.
商品信息图片可能出现的另一个问题是,采用图片的方式来规避对敏感或违禁词的检测.
我国的《广告法》和《反不正当竞争法》分别对虚假广告和利用广告作引人误解的虚假宣传作了禁止性规定.
文本形式的商品介绍信息较易进行检测,而使用图片将大大增加电商网站监管的难度和工作量.
除了电商网站,微信等社交软件中也存在大量以图像格式存在的文本信息,所以这一问题具有普遍性.
要解决以上的这些问题,需要设计一个系统来自动地从商品信息图片上提取其中的文本信息,这将有助于电子商务企业更好地做出商品推荐、售后服务和信息监管.
图3、某电水壶的商品信息图片(部分)二、二、二、二、根据提供的数据,设计相应的算法,解决以下任务,并做出评测(根据提供的数据,设计相应的算法,解决以下任务,并做出评测(根据提供的数据,设计相应的算法,解决以下任务,并做出评测(根据提供的数据,设计相应的算法,解决以下任务,并做出评测(F-score).
).
).
).
1、图片中的字符检测根据商品信息图片中字符和背景的特点,设计算法从图片中检测字符(包括中文字符、英文字符和数字、标点).
检测结果保存在以box为后缀的文本文件中,输出字符在原图中的位置范围(字符的最小外接矩形,如图4所示).
以图片左下角为原点,输出字符的最小外接矩形的坐标4元组:(左下角x坐标,左下角y坐标,右上角x坐标,右上角y坐标),如图5(b)中的后四列所示.
图4字符的最小外接矩形2、字符识别对所提取字符进行自动识别,识别结果列在字符位置四元组之前,如图5(b)所示.
三、数据说明三、数据说明三、数据说明三、数据说明1、1为训练样本,包含了1000张商品图片及对应的box文件.
图1(a)是某品牌服装商品的图片.
图1(b)是图1所对应的box文件.
(a)(b)图5.
1数据(a)商品信息图片(b)对应的box文件2、2为检测样本,包含了500张商品图片,将于5月14日8:00在赛题发布页面(http://www.
tipdm.
org/qk/729.
jhtml)中公布.
参赛队需在最后提交作品期限之内,以box文件方式完成识别结果.
racknerd怎么样?racknerd最近发布了一些便宜美国服务器促销,包括大硬盘服务器,提供120G SSD+192TB HDD,有AMD和Intel两个选择,默认32G内存,1Gbps带宽,每个月100TB流量,5个IP地址,月付$599。价格非常便宜,需要存储服务器的朋友可以关注一下。RackNerd主要经营美国圣何塞、洛杉矶、达拉斯、芝加哥、亚特兰大、新泽西机房基于KVM虚拟化的VPS、...
近日华纳云发布了最新的618返场优惠活动,主要针对旗下的免备案香港云服务器、香港独立服务器、香港高防御服务器等产品,月付6折优惠起,高防御服务器可提供20G DDOS防御,采用E5处理器V4CPU性能,10Mbps独享CN2 GIA高速优质带宽,有需要免备案香港服务器、香港云服务器、香港独立服务器、香港高防御服务器、香港物理服务器的朋友可以尝试一下。华纳云好不好?华纳云怎么样?华纳云服务器怎么样?...
易速互联怎么样?易速互联是国人老牌主机商家,至今已经成立9年,商家销售虚拟主机、VPS及独立服务器,目前商家针对美国加州萨克拉门托RH数据中心进行促销,线路采用BGP直连线路,自带10G防御,美国加州地区,100M带宽不限流量,月付299元起,有需要美国不限流量独立服务器的朋友可以看看。点击进入:易速互联官方网站美国独立服务器优惠套餐:RH数据中心位于美国加州、配置丰富性价比高、10G DDOS免...
图片文字识别为你推荐
请各矿将表填好后于2017年3月1日前发至zhxsh411@163.com邮箱.1f20;BACKGROUND-COLOR:#4ae2f7">16-bit交换机route支持ipad支持ipad支持ipad支持ipad支持ipad化学品安全技术说明书重庆网通中国联通重庆分公司的公司简介
租服务器 论坛虚拟主机 华众虚拟主机管理系统 www二级域名 域名注册godaddy 域名查询软件 国际域名抢注 德国vps 免费com域名申请 域名备案中心 域名解析服务器 东莞电信局 rackspace 美国主机论坛 美国便宜货网站 xen 青果网 php免费空间 gg广告 警告本网站美国保护 更多