精度搜索引擎


请输入要查询的词条内容:

精度搜索引擎




精度搜索简介


无论是第一代搜索引擎还是第二代、第三代搜索引擎随着高速的互联网发展,海量的信息堆叠,信息的搜索精度成为所有用户关注的第一要点,现在想通过搜索引擎找到我想要的东西变得越来越困难了,我想着大概不会是我搜索技巧不高的原因,而是各种信息的过度泛滥,使得我不得不花费更多的时间来甄别哪些信息对于我来说是有价值的。虽然我经常说,有价值的信息都在专业的论坛里面,但是限于每个人潜水的深度,不可能深入到太多的领域之中,所以互联网成为了我们寻找答案的最快捷的途径。但是很不幸的,这个平台被太多的垃圾广告商看中了,然后又有一堆人来研究SEO(针对搜索引擎的优化),使得我们对于信息的甄别成本不断的加大。于是,我发现,我需要一个高精度的搜索。无论怎么说,面对现在这样的海量的资源,我还是的的确确需要一个相当有效的搜索利器,而不是每次都遵循——百度/Google,万方等论文期刊数据库,图书馆的顺序这样费力的查找。可是很不幸的发现,现在的搜索引擎在这个方面只是越做越糟糕,真是一件令人伤心的事情啊。而在一朋友多次的感慨与创新性的发现之后,我觉得我们所要做的不单单是回归传统的分类搜索和排行榜似的推荐搜索,而是解决更大层次上的一个人机交互的问题。当然最最完美的状况就跟人和人对话那样,比如我对搜索引擎说“我想要订蛋糕”,然后一家离我最近的蛋糕店的网址就冒出来的,而且直接是蛋糕选择页而不是它的广告页甚至是蛋糕原料厂商的网站,那该有多么的美好啊!智能AI是个由来已久的问题,但是至今机器和程序的AI还是那么的有限,以至于像百度这么大一企业搜索结果下面的相近搜索词居然还要人工来做。可见这是一种多么的可悲的事情啊!由此推论,就算是想做高精度的搜索,所需要的可能就不单单是对于算法上有所突破的要求了,更多的则是对于统计学和人工AI的跨越式发展。可是看来这并不是一件短时间就可以完美解决的事情。所以,高精度搜索更多的只是一种美好的设想,但在现在看来是一个实现成本极高的事情。虽然百度在做相关的信息筛选工作,可现在看来效果并不那么尽如人意。有道貌似有什么高招,至于效果还有待实践检验。但是现在实现成本高的事情不代表在未来没有实现的可能。甚至于我们可以略为乐观一点,在最近的几年之内随着市场白热化竞争的加剧和相关需求的暴涨,各大公司还会回归到这么一个搜索引擎本质的质量领域。

精度搜索定义


参考遵从精度搜索的定义:第三代搜索引擎带给用户的体验应该是:精准化、开放化、智能化、个性化、社区化。

精准化

精准是搜索的灵魂,精度搜索以上万编辑人员全称参与编辑需求信息数据,历时四年,编辑的数据以覆盖生活、商务需求的各个角落,拥有多项著作权和专利权的精度搜索摒弃搜索推广和垃圾信息,远离SEO(搜索引擎优化)独立实现了数亿级信息汇编的整理工作并开放提供检

索服务,辅之以电子商务化信息查询,满足所有互联网用户的信息检索需求和商务生活、学习需求。

开放化

精度搜索从用户角度出发,编辑收录上亿条实用准确信息,并开放数据接口,提供所有搜索用户参与编辑检索结果有精度审核人员审 核编辑,全民参与提供自身需求的数据,全民互动编辑审核提出垃圾检索信息,以开放的姿态迎接信息搜索精度的提升。

智能化

目前的搜索引擎能够给人们提供海量的信息搜索结果,一次搜索往往会有成百上千页的结果,实践表明,很少有人会看 10 页以后的 搜索结果。未来的搜索引擎必须要引入人工智能技术,尝试去理解用户的查询意图,并优先显示用户需要的结果。精度搜索以人工智能精选用 户需求的信息有限展示,并切身智能分析用户需求,是无关信息的出险率近乎为零。

个性化

每个人的搜索习惯和需求都不一样,但目前的搜索引擎却无法考虑到这点。对于同一个关键词,一个搜索引擎给予所有用户的搜索结果都是一模一样的。未来的搜索引擎必须要考虑到用户的个性化需求,不仅要给出符合不同用户需求的不同结果,连搜索结果的界面都应该有所区别。精度搜索以用户需求信息的不同甄别信息分类,以多个独立导航栏目形式无缝关联其他应用信息的检索结果,并辅助以多种检索条件保证检索精度和个性化。完全是针对用户的检索结果。

社区化

未来的搜索引擎本身就是一个社交网络,通过用户的互动交流,我们可以更快、更方便地获取信息。另外,每个人的搜索结果都可以存储并可以和其他人分享。精度搜索针对用户需求,建立庞大的用户俱乐部平台,以精度搜索建立其统一关键词的用户社区并利用电子商务应用的便捷发展商务应用,使搜索成为社区化链接电子商务的桥梁。精度搜索(的未来。

精度搜索的发展


精度搜索的发展经历了三代搜索的更替交叠:

第一代搜索引擎

无论是纯技术型的搜索引擎还是分类目录,都可以认为是互联网上的第一代搜索引擎,出现于1994年前后,以Altavista、YAHOO和Infoseek为代表,搜索结果的好坏往往用反馈结果的数量来衡量,也就是说,第一代搜索引擎“求全”。然而,研究表明,现在的搜索引擎性能并不是想象中的那么优秀,在全球11个主要的搜索引擎中,搜索引擎仅能搜索到国际互联网上全部页面的16%,甚至更低,造成这种情况的原因,主要是因为这些搜索引擎没有及时更新他们的资料。

第二代搜索引擎

1998年,以Google和DirectHit为代表的第二代搜索引擎出现在互联网上,这些引擎的主要特点是提高了查准率,可以用“求精”来描述。正在发展中的第三代和第四代搜索引擎则分别为“求专”和“求易”。下面简单介绍一下为雅虎网站提供网页搜索的Google搜索引擎的工作原理。Google搜索引擎采用新的搜索方式,通过一种复杂的数学分析,通过估算反馈网页质量及相关程度来决定排名次序。要知道一个网页的质量,Google可以通过有多少网页与它链接来判断,这是因为人们一般不会与低质量的网页做链接。传统的搜索引擎如Hotbot和Lycos等当前使用的是元素搜索技术,即使用网页中的关键词进行搜索,而Google则使用一种包含对整个网络的链接结构进行分析和大规模资料挖掘的技术。

Google不仅扫描搜索关键词,还阅读页面全文,考虑到图像和所有链接,然后把该页面与类似页面区分开来。要想在Google获得好的排名,对网站推广推广提出了更高的要求,仅仅依靠对网页的优化也是不够的,而是依据网站的综合推广水平来决定在搜索结果中的排名次序。所以,被其它网站链接的数量也是考核网络营销效果的一项参考指标。

搜索引擎的技术仍在快速发展中,现在,很多用户甚至还不明白第三代搜索引擎意味着什么,第四代搜索引擎的概念也开始广为流传,一般的用户要分清这些搜索引擎技术的差别,看来并不是一件容易的事情,不过好在用户关心的只是搜索引擎能带来的基本价值——以更方便、更快捷的方式获取符合自己期望的有价值的信息,搜索引擎的发展方向也不会超出用户需求的基本方向。

第三代搜索引擎

2004年8月3日,国内知名门户网站搜狐正式推出全新独立域名专业搜索网站“搜狗”,并声称该搜索引擎是全球首家第三代中文互动式搜索引擎服务提供商。根据搜狐网站上的说明,“第一代搜索是主要依靠人工分拣的分类目录搜索,以搜狐和雅虎为标志;第二代搜索是依靠机器抓取,建立在超链分析基础上的网页搜索”,那么什么是第三代搜索引擎呢?搜狐网站上的专题文章“第三代搜索引擎揭密”中是这么介绍第三代搜索引擎的:

“互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。不论我们想从互联网中寻找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。

搜索引擎是对计算机科学与技术的极大发挥,将理论研究和工程开发完美结合,创造了非凡的用户体验和文化。以Google为代表的传统搜索引擎,在用户输入一个查询词时,返回和此查询词相关的网页摘要,并尽可能将用户需要的结果排在了前面。但搜索引擎毕竟不会“猜心术”,对于一个词,通常用户会有不同的需求,比如对于“绿茶”,人们要的可能分别是茶文化、健康知识、电影介绍、化妆品或者其他。(大多数)用户并不能够通过一两个词,精确表达自己所想要的内容,搜索引擎也无能为力只有返回大量的结果供用户选择。

搜狐首推的第三代搜索——互动式搜索,在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示,引导用户更快速准确定位自己所关注的内容。(另一个好处:在用户搜索冲浪时,给与用户未曾意识到的主题提示)”

该文中同时介绍了第三代搜索引擎的产品特点:

互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果

分类导航:针对部分查询结果项,扩展到类似或相关网站

查询精确相关:先进的分词引擎,并利用搜狐4000万用户名优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含

查询词的网页数据量,收录2亿中文网页,超过Google收录量。

更新速度:每天更新最重要的网站和新闻

不过,关于“搜狗”是全球第一个“第三代中文互动式搜索引擎”的观点,一些研究文章并不如此认为,早在2003年11月份就有新闻报道称慧聪宣布发布第三代搜索引擎:

“最近,国内企业慧聪宣布发布第三代搜索引擎。据慧聪CTO陈沛介绍,相对于前两代,第三代中文搜索引擎更注重智能化和用户使用的个性化,其采用了中文自动分类、自动聚类等人工智能技术,而且使用了中文内容分析技术,以及区域智能识别技术,增强了搜索引擎的查询能力。”

因此,对于搜狗和慧聪(后来将搜索引擎独立出来改称“中搜”)谁是第一个第三代搜索引擎的问题,至今并没有定论。而据一些研究资料中的信息,如果从技术上来划分,从1998年开始就进入了第三代搜索引擎。下面有关搜索引擎发展历程的归纳资料选自2001年6月完成的学士

毕业论文《第四代搜索引擎——主题搜索引擎的设计与实现》(北京大学计算机科学技术系计算机软件专业作者:罗昶),其中也介绍了第三代搜索引擎的特点。

“搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到

4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。

大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称

能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。

自1998年到现在【网络营销教学网站注:应该指该论文写作的时间,即2001年】,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点:

1.索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。

2.除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。

3.由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google系统和IBM的Clever系统作出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。

4.开始使用自动分类技术。Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。

2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页。

尽管对于第三代搜索引擎年代的划分和主要特性至今没有统一的认识,不过至少可以肯定的是:第三代搜索引擎是对第二代搜索引擎在搜索技术上的改进,主要增加了互动性和个性化等高级的技术,为用户使用搜索引擎获取信息获得更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少价值——尤其是为企业利用搜索引擎开展网络营销增加了哪些价值,目前并没有非常令人信服的研究结论。这也就是目前所谓的第三代搜索引擎并没有表现出太多优势的原因之一。

当前搜索引擎的缺点


1:搜索引擎在处理垃圾信息方面还是力不从心

大量的重复的以及伪原创的信息铺天盖地,这些都直接导致了用户的搜索结果受到了严重的污染

2:搜索精度过低

在一些通用的关键字搜索方面搜索引擎已经做得很好了,比如你搜索《刺陵》返回的肯定全部都是建国大业的信息。但是当你搜索一些要求比较高的关键字的时候却找不到你想要的信息了。

3:搜索引擎无法判断搜索结果中的目标网站的质量

例如你在找一篇论文,但是搜索引擎只会按照PR,按照排名算法去根据文章的结构判断哪些网页的质量比较高哪些比较低。而不会分析论文究竟是乱说一通还是非常详细精确的描述了问题。

4:百度知道等问答模块得到的答案一般都是从其他网站copy过来的,或者直接搜索得到的并不能完全满足提问者的需求。尤其是一些高要求的专业性较强的问题基本上得不到想要的答案。很多人在上面回答问题的动机就是为了得到积分,而这些积分的实用性也不太大,所以没有人会花几十分钟去回答你这个问题。

搜索引擎的种类


整合搜索

谷歌在逐步完善它的通用搜索,先后将新闻、图片、音频、视频等信息整合呈现在搜索结果中整合搜索也体现了搜索引擎的智能化发展方向,因为搜索结果整合的前提是基于对关键字的职能分析判断的。所以,如果用户在Google中输入的关键字是“风景”,Google的理解是用户想查找“风景”方面的图片,而不是关于“风景”的介绍,所以在结果中添加图片搜索的结果,从而实现搜索的智能化。

如今Google的整合搜索功能已经很完善了,一般情况下,在Google中搜索任何关键字,返回的结果都不会仅仅是网页搜索的结果,可能还有新闻搜索、博客搜索、图片搜索、视频搜索、股票财经搜索、学术搜索、文件搜索、天气搜索以及最近推出的电影搜索等。

总之,Google的整合搜索与雅虎的全能搜索不同,雅虎全能搜是无论用户需不需要,都一股脑儿将资讯、博客、图片的搜索结果同时放在一个页面,所以,很凌乱很复杂。而Google是通过关键字的分析来判别用户的搜索意图,从而嵌入相关产品的搜索结果,这点正是我所看重的。

高级搜索

高级搜索允许用户从多个角度(包括关键词位置、文件格式、指定网站、时间和语言等等)来设置筛选条件以提高查准率。

偏好搜索

比如对搜索语言、界面、结果显示条数、结果是否在新窗口打开、搜索建议等等方面的设置。使用偏好是提高搜索引擎黏性、留住部分高端用户的举措之一。

相关搜索

有时候是因为选择的查询词不恰当。您可以通过参考别人是怎么搜的,来获得一些启发。而“相关搜索”,提供了这样的功能。相关搜索是其他和您有相似搜索需求的用户所选择的查询词,根据这些查询词被搜索的热门程度以及与您所选择的查询词之间的相关性,由系统自动判断后产生的。它排布在搜索结果页的左侧和下方,点击相关搜索词可以直接获得这些词的搜索结果。

问答模块

很多互联网公司认识到单纯得靠关键字来提供用户想要的信息的搜索已经远远不能满足用户日益增长的对高质量信息的需求了,如果你想要找关于《刺陵》的一些信息那么你只要在google或者百度里输入“刺陵”就可以找到你要的信息了,但是如果你想知道建国大业在北京朝阳影院的票价是多少的时候搜索引擎就爱莫能助了,这时候就需要用到人了。于是聪明的百度推出了百度知道,弥补了搜索引擎在用户深度信息需求方面的空缺。

精度搜索的发展趋势


精度搜索的发展趋势,随着网页的海量增加,现有的“关键词”搜索技术的精度每况逾下,用户查询所需时间越来越长,显然,技术已经远远落后于需求。

用户对信息的检索,造就了google帝国,但是随着信息的指数式增长,量变终于造成了质变,关键词搜索模式开始遇到了一个致命的问题——搜索的精度问题无法解决。

Google的用户平均要花费11分钟才能找到自己需要的信息,与此同时他们还必须过滤掉其中夹杂的大量无关的内容,70%被调查的网民都或多或少的有过搜索疲劳——即认为搜索结果不能满足他们的需要或者很难适合找到自己需要的结果。

搜索引擎虽然能很轻松的帮我们找到海量的信息,但是我们却很难从中找到自己想要的。我们需要有技巧和能力才能从海量数据中找出自己想要的。这种技巧和能力表现在:是否熟练使用搜索技巧、是否能通过搜索结果中展示的内容判断目标网站是否有效等等。但是对于普通的搜索用户来说,他们只会在搜索框里输入他们想要的东西然后点击搜索,于是展示在他们面前的就是“海量数据”,如果正确使用搜索命令来过滤和准确表述目标需求正是这些普通用户所欠缺的,而问题是搜索引擎的使用者绝大部分是这样的“普通用户”。