图片搜索

网站搜索引擎是如何实现图片搜索的?

 

抓取网页主要是关键字,抓取图片应该是alt,他有自己的数据库,抓取过后截取字符串进行归类,这是我想的哈,如何抓取好像是靠机器人蜘蛛程序

每张图片都必需添加alt信息,信息最好是精炼过的关键字,图片面后应该包含一些图片描述性的文字,图片应该带有链接,正文为缩略图,点击链接后显示大图。

网站的图片是非常耗费流量的,比如两天的时间博客有20G的访问流量,图片所在的目录upload占用了18.6G,而文章所在目录只用了1.3G流量,可见图片占用流量资源之巨大,这也就是很多人都喜欢将图片文件放在第三方免费网络相册的原因。那么将图片存储在自己的网站空间,反而可以利用搜索引擎的图片搜索给自己带来不少额外流量,这里的搜索引擎指的是Google的图片搜索,而不是百度,因为百度采用盗链机制,其图片搜索基本上不会给网站带来什么页面流量的。

每次上传图片时都定义了一个或几个关键字存在数据库里,库里每条记录的关键字都有对应的图片地址,搜索时输入这个关键字就可以找到这张图片。

用户向搜索引擎表达他的需求,搜索引擎理解用户需求,提供各不同的需求下的资源,这整个过程可统称为需求满足。简单说,就是除了基础文字相关性之外的rank工作,都属于需求满足的范畴,也就是说,提供给用户的检索结果,不仅仅要求在字面上是和用户输入的文字相关的,还要满足用户的各种不同需求。

用户通过query表达了自己的需求,而对于大部分query来说,尤其是具有隐含需求的query,仅仅字面匹配的查询结果未必能够满足其需求。目前我们的排序系统是主要是基于文本相关性这个维度的,权值体现了query中的termobj的相关程度,在这个体系下,相关的结果未必能够满足用户需求。

Image需求满足,按照不同的维度,可以划分为如下几个方面: a.需求识别

  b.资源建设  c.需求调权 d.结果组织与推荐 e.用户引导交互

需求满足要解决的核心问题:需求识别/资源建设/需求调权

需求的识别

识别query有哪些需求,以及需求的强弱,是最基础的工作。首先要有需求的体系,能完备的描述各种需求,其次是如何识别这些需求,把每个query的需求对应到这个体系中去。

基于统计的需求识别  通过对大量的数据统计分析,可以识别出query有哪些方面的共性。可供分析的数据很多,比如用户行为数据,点击反馈,检索结果等。

专名&需求词判断query中包含专名或者需求词等关键词,是最直接的方式。比如章鱼保罗头像,用户在query中显示的表达了头像方面的需求,其中就包含了尺寸方面的需求,头像是需要小尺寸的图,如右图所示,这时候出一张大的图片就不符合用户需求了

时效性需求:主要是通过用户检索量的突发以及资源数的突发来判断

检索量的突发,可以通过累积每个query的每天的用户检索频率,用连续多天的用户检索频率,计算当天检索量和历史比较,是否有突发,进而判断是否有时效性需求的强弱。资源数方面的判断,可通过类似的方式挖掘

识别出query有哪些需求,下一步的工作就是提供相应的资源

如何获得满足需求的资源,是需求满足的另一个核心问题。在资源上,通过某一个或者几个特征组合,能够把满足要求的资源和不满足要求的资源区分开,找到用户需求需要的资源,去掉不满足要求的资源,是主要的工作。

内容属性特征对于底层的物理特征,相对比较简单,包括尺寸,颜,格式,清晰度饱和度等,中层特征,有人与非人的,色    情图片的,整车的识别,手机图片的识别等;对于高层的语义特征,包括场景的识别,图片风格的识别,情感的识别,比如是室内还是室外,是否非主流风格等,都可以作为资源筛选的特征。

话题属性维度话题属性维度,是指动物,植物,帅哥,美女,军事,体育等等各种不同的话题,我们希望把图片能按照这样一个分类进行一个划分

时效性资源,可以很容易的通过收录时间来判断,和非时效性资源区分开

 

 

 

猜你喜欢

转载自aoyouzi.iteye.com/blog/1912397