电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

Web图片搜索引擎设计.

  • 资源ID:88627604       资源大小:122KB        全文页数:38页
  • 资源格式: PPT        下载积分:15金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要15金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

Web图片搜索引擎设计.

Web图片搜索引擎设计,基于文本的图片信息提取,大纲,图片检索技术简介 我们设计的系统总体结构 图片文字信息提取 无用图片过滤 一些统计规律 结合文本与内容的方法(后期打算),图片检索技术分类,基于文本 利用某种提取方法获得与图片内容相关的文本信息,利用传统文本检索方法提供检索。 基于内容 提取图片中的可视化特征,比如颜色,形状,纹理等,对特征建索引,提供相似查询。 基于语义 理解可是特征的语义信息,可以利用文字查询可视特征。,基于文本,优点 符合用户查询习惯(关键字查询) 适合复杂语义查询(比如查“奥运会”) 利用已有的技术积累(文本检索) 性能好 缺点 提取的信息不够准确 文字描述不能保证全面性 不能基于内容相似查询,基于内容,优点 可以查询相似图片 对图片来源要求低(不需要额外文字信息) 缺点 技术不成熟 效率低 复杂语义无法表示,基于语义,通过理解图片中的可视特征来建立低层特征到高层语义的映射(比如:能够理解大海是蓝色的) 。符合人类理解图片的自然方式。 开始大量的研究,在未来会有很大的发展。,我们的选择基于文字,理由 目前的大型图片搜索引擎基本上都是以基于文字的检索为主体。 性能良好 已有大量的网页资源可供使用。 开发周期较短。,我们设计的系统的结构,系统工作过程,抓取网页和图片 从网页中提取图片相关的文字信息 利用图片生成缩略图 对提取到的文字信息建倒排索引 提供查询,核心图片信息提取(Extractor),信息来源 HTML文档用于组织文字和图片等 通过分析HTML文档找到图片和相关的文字 提取方法 不能确知网页作者组织信息的方法,所以利用启发式规则 将最可能与某图片相关的位置的文字作为图片的文字描述信息,常用提取模式,标记 从src获取图片来源 从alt获取相关文字信息(注意可能为文件名) 获得width和height,用于以后的过滤,常用提取模式(续),标记 从href获得URL,判断是否为图片(简单的根据扩展名,不处理动态内容) 从title获得相关文字信息 从anchor_text获得图片的文字信息(通常最准确),常用提取模式(续),网页的标题 图片与所在网页相关,因此和网页的标题相关 提取下的文字。有时下还会嵌套标记,需要去除。有时使用缺省的名字(比如new page或者Untitled Document),需要过滤,常用提取模式(续),链接到图片所在网页的文本 和网页的标题一样,这是对网页的描述,所以Some_info可能和xxx.jpg相关 需要跨页面的信息提取,Some_info,a.html,xxx.jpg,常用提取模式(续),网页的meta标记 也是对网页内容的描述 可以提取其中的keywords和description的值,常用提取模式(续),图片的URL 图片的URL可能含有相关信息(path和file_name) 判断path和file_name是否为中文,或者为英文单词,是则可能有意义 不考虑站点的domain_name,太泛,常用提取模式(续),关联的和 嵌套 则xxx.jpg和foo.html的内容相关,可以使用foo.html的标题作为文字信息 并列 anchor_text 则xxx.jpg和anchor_text相关,可以用anchor_text作为文字信息,常用提取模式(续),结构 组织结果比较多样化 相关的文字和图片放到同一个中; 相关的文字和图片放在同一个下的两个里; 相关的文字和图片放在两个相邻的内; 以某种其他的规律出现在里 提取时需要判断使用的是哪一种组织方式,Hello, world你好,世界,常用提取模式(续),图片周围文字 比较难于界定“周围”的含义。 基于流的方式,图片所在HTML流中位置前后一段固定的距离,常用提取模式(续),图片周围文字(续) 基于DOM的方式 与图片具有共同最低祖先的文字节点, some_text ,

注意事项

本文(Web图片搜索引擎设计.)为本站会员(206****923)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.