文章来源:http://www.360doc.com/showWeb/0/0/621155.aspx
Tags: 搜索引擎搜索引擎
2007-7-21 8:03:32 | 编辑
搜索引擎相关文章列表
摘要:Google共有64个桶(barrels),每个桶都存着wordID的归类,包括顺排档与倒排档。如果一个文档包含落在某个桶里的词,docID和wordID的列表以及相应的命中列表就被记录到桶里。Google存储每一个wordID时,存储的是与所在桶的最小wordID的相对差异,而不是存储实际的wordID。这样,在未排序的桶中用24位存储wordID,留下8位用来存储命中列表的长度。倒排档索引就象顺排档一样由系列的桶组成,唯一的不同是被分类器处理过。有个重要的问题是docID应当在doclist中如何排序。一个简单的解决办法是用docID进行分类,这允许多词查询而带来的不同doclist的合并。另外一个办法是按词在每个文档中出现的频率等级进行分类存储,尽管这使得处理单个词的查询变得繁琐,但为多词查询提供了可能。Google在这两个方案中选择了折衷,使用两套倒排的桶,一套为包括标题和anchor hits的命中列表,我们称之为短桶,另一套为所有的命中列表,我们称之为长桶。在顺排档索引和倒排档索引中,命中列表占据了大量的空间。 ——点击此处阅读全文
发表于 @ 2007年07月20日 4:14 AM | 评论(0) |
摘要:我们看到,最近流行的垂直搜索,行业网站,类聚的网站,社区,这些东东。。带来很大的人流。如化工网,知名度可以了,他还会花钱到baidu作广告吗?随便花点钱就可以把他的名字现实在大大小小的网站上,他的招牌随处可见。人们即便不知道玉米,也能在google随便找一下。就出来了。所以突然想到一个平面搜索的死穴。离用户的鼠标和浏览器是最近的,但离用户的实际需求是最远的。 ——点击此处阅读全文
发表于 @ 2007年07月20日 1:59 AM | 评论(0) |
摘要:学习搜索得就业可观。在csdn里,很多玩c++,linux,nutch,lucene有经验得人,我看过他们得blog,他们都得到过很多作垂直搜索,作行业搜索的HR,老总的橄榄枝。比如某人得到职友集老板的讯问。呵呵。我对这个有些了解。因为在这个方面,人才缺口是1:40.可以预见,是蛮有前途的行当。 ——点击此处阅读全文
发表于 @ 2007年07月19日 9:59 PM | 评论(0) |
摘要:开源软件在发展历程中,已经不仅仅是开放源代码的免费软件。开源软件与商业并不冲突,它是一种新兴的商业模式。那么我们来看看开源软件是如何生存、如何创造价值、并如何借助其创造的价值来获得回报的。 ——点击此处阅读全文
发表于 @ 2007年07月19日 7:51 AM | 评论(0) |
摘要:Nutch是一个建立在Lucene核心之上的Web搜索的实现,它是一个真正的应用程序。也就是说,你可以直接下载下来拿过来用。它在Lucene的基础上加了网络爬虫和一些和Web相关的东东。其目的就是想从一个简单的站内索引和搜索推广到全球网络的搜索上,就像Google和Yahoo一样。当然,和那些巨人竞争,你得动一些脑筋,想一些办法。我们已经测试过100M的网页,并且它的设计用在超过1B的网页上应该没有问题。当然,让它运行在一台机器上,搜索一些服务器,也运行的很好。 ——点击此处阅读全文
发表于 @ 2007年07月19日 7:11 AM | 评论(0) |
摘要:Nutch是一个基于Lucene,类似Google的完整网络搜索引擎解决方案,基于Hadoop的分布式处理模型保证了系统的性能,类似Eclipse的插件机制保证了系统的可客户化,而且很容易集成到自己的应用之中。 Nutch 0.8 完全使用Hadoop重写了骨干代码,另有很多地方作了合理化修正,非常值得升级. 1.Nutch 0.8 的安装与运行 ——点击此处阅读全文
发表于 @ 2007年07月19日 6:31 AM | 评论(0) |
摘要:文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件的可用性。 ——点击此处阅读全文
发表于 @ 2007年07月19日 5:36 AM | 评论(0) |
摘要:日前,在2006年中国搜索年大会上,赛迪顾问执行总裁李峻指出,今后以百度、Google为主的水平搜索的增长将趋缓,而垂直搜索(手机移动搜索)、论坛搜索、本地搜索等未来新兴搜索引擎市场将以30%左右的速度增长,到2010年规模将达到78亿元。 ——点击此处阅读全文
发表于 @ 2007年07月19日 5:31 AM | 评论(0) |
摘要:yandex成立于1997年,现在已发展为俄罗斯使用率最高,最流行,广告服务最专业的搜索引擎.根据Alexa全球网上调查显示,yandex位居全球48位,居俄罗斯首位!yandex平均每天有3百万万人次的访问量,这些用户不仅包括俄罗斯用户,而且包括了乌克兰,白俄罗斯和其它前独联体国家的用户.yandex有巨大的广告网络,与乌克兰,白俄罗斯的搜索引擎有合作关系,企业只需购买yandex排名服务,其广告信息同样会出现在其它著名的搜索引擎上,包括乌克兰和白俄罗斯的著名搜索引擎。 ——点击此处阅读全文
发表于 @ 2007年07月19日 5:25 AM | 评论(0) |
摘要:Google的搜索引擎比雅虎先前使用的技术能更快、更准确搜索到所需要的信息。这样,问题的关键就在于,我们要选定一个搜索信息准确(这样我们的搜索才会更有意义啊)、速度快(因为我们分析搜索结果并显示需要额外的时间),搜索结果简洁(便于进行HTML源代码分析和剥离)的搜索网站,由于新一代搜索引擎Google的各种优良特性,这里我们选择它为例,来看看用PHP怎样实现后台对Google(http://www.google.com/)搜索、前台个性化显示这一过程。 ——点击此处阅读全文
发表于 @ 2007年07月19日 4:53 AM | 评论(0) |
摘要:说白了。baidu,google,yahoo都算上。如果假设把它们搜集的网页数量缩小1亿倍。也就是说。我们可以假设它只给10篇网页作了搜索的话。我们可以得出一个结论:这些所谓的搜索,只是给网页编制了一个倒索引而已。通俗的讲,就是给字典作了一个拼音部首索引。一点也没什么神秘。神秘的是:数据量,存储量,成本,技术难度,无可借鉴性。还有就是商业形式的成功已否。酷讯如果超过baidu呐,那也不是不可能。这涉及到一个信息的切块问题。平面和垂直本是现实存在的事物逻辑。我们没必要认定google是搜索。我检索1000个网站就不是搜索。原文的作者对行业,对技术,对架构缺乏必要的了解。 ——点击此处阅读全文
发表于 @ 2007年07月19日 1:05 AM | 评论(0) |
摘要:尽管发展速度较快,但我国目前仍处于电子商务服务业的形成期,预计未来20年,电子商务服务业将会成为中国服务贸易中新的经济增长点,并加速国际贸易服务领域的变革,这也是全球贸易服务领域变革的必然发展趋势。B国际贸易发展的趋势在今后20-30年间,服务贸易在国际贸易中的比重大约每年提高一个百分点,预计21世纪30年代起,服务贸易的比重将赶上甚至超过货物贸易的比重,服务贸易将成为国际贸易的主要对象和主要内容国际服务贸易的方式和内容正在发生变化。如何拓展“国际服务贸易”领域的电子商务是一个新的课题,也是一次机遇。 ——点击此处阅读全文
发表于 @ 2007年07月19日 12:24 AM | 评论(0) |
摘要:作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注.目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论.同时,Web挖掘系统的开发对其研究也将起到很大推进作用. ——点击此处阅读全文
发表于 @ 2007年07月18日 8:07 PM | 评论(0) |
摘要:Web挖掘(web mining),在不同的上下文中有不同的含义;见得比较多的,是挖掘用户访问网站的行为模式,以优化网站结构和内容的设计。在这个报告中,我们取不同的角度,即将Web上的内容作为反映社会运动的一面镜子,希望了解它提到了哪些人和事,什么时间发生了什么事上,某个事件是在哪个地方发生的,以及报导该事件的是哪个地区的机构。具体来讲,我们关心4个“W”,即when, where, who, what,以及它们的相互关系。报告将阐述这类工作的意义,并以北京大学网络实验室的一些尚未发表的初步工作为例,介绍相关的进展、挑战以及未来发展的空间。 ——点击此处阅读全文
发表于 @ 2007年07月18日 7:11 PM | 评论(0) |
摘要:互联网为用户提供了丰富的资源,但没有一个很好的信息挖掘工具是很难以获取其中的有用信息的。笔者以网络信息挖掘技术在农业信息领域中的应用为例进行简单说明。随着我国电信事业的进一步发展,网络信息也正在加倍增长,特别地,农业是我国第一大产业,农业的信息化必然要求我们要建立一个农业领域内的信息挖掘系统,以满足各层次用户对农业信息的需求。 ——点击此处阅读全文
发表于 @ 2007年07月18日 6:59 PM | 评论(0) |
摘要:论文简要介绍了元搜索引擎的相关知识,提出了一个元搜索引擎系统的设计构想。该系统采用了反馈机制,在用户察看结果时进行在线学习和调整。在系统设计中提出了搜索语法的设计、基于用户喜好的成员搜索引擎的自动调度机制、个性化服务的支持等,并给出了建立一个元搜索引擎系统的关键技术。最后分析了该系统的意义以及尚需解决的问题。 Internet 搜索引擎 元搜索引擎 信息检索 搜索语法 ——点击此处阅读全文
发表于 @ 2007年07月18日 9:09 AM | 评论(0) |
摘要:由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google系统和IBM的Clever系统作出了很大的贡献;另一类是用户信息的反馈,Direct Hit系统采用的就是这种方法。 ——点击此处阅读全文
发表于 @ 2007年07月18日 8:16 AM | 评论(0) |
摘要:互联网盈利模式有人说:对网络经济来讲,创新似乎是它可以如此不断膨胀,并且持续繁荣的唯一原动力,而且,好像在互联网上谁合理运用了这个动力,谁就会成为财富的聚集地。当然,这种金字塔尖上的人和企业总是凤毛麟角,并且在他们之中,爬上塔尖和跌下塔尖的频率始终是以天而不是以年来计算。这种高频率的变化,背后对应的恰恰是众多的互联网创新模式的诞生。所以,对这些创新模式的总结和归纳,将会对我们寻找如何获得财富这个问题的答案提供重要的帮助。 ——点击此处阅读全文
发表于 @ 2007年07月18日 8:07 AM | 评论(0) |
摘要:我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。 ——点击此处阅读全文
发表于 @ 2007年07月18日 6:27 AM | 评论(0) |
摘要:搜索引擎系统的各个部分是相互协调来工作的,因而若有实现自动工作,需要有一个调度控制程序来调度。另外各个部分也需要提供一个供调度器调用的接口,这样调度器就可以调用接口控制其工作。但是蜘蛛程序、切词器等属于长任务作业,我们并不能保证在其运行周期内不会出错,所以各系统还需要有一个故障检测、任务重启动功能,这样才能保证各系统在无人监管的情况下自动运行。 ——点击此处阅读全文
发表于 @ 2007年07月18日 6:15 AM | 评论(0) |
发表于 @ 2007年07月18日 5:39 AM | 评论(0) |
摘要:Lucene是目前最为流行的开放源代码全文搜索引擎工具包,隶属于Apache基金会,由资深全文索引/检索专家Doug Cutting所发起,并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序,而是一个专注于文本索引和搜索的工具包,能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现,虽然由Java编写的Lucene具有天生的跨平台性,但仍被改编为许多其他语言的版本:Perl、Python、C++、.Net等。 ——点击此处阅读全文
发表于 @ 2007年07月18日 2:31 AM | 评论(0) |
摘要:1992年“Gopher”(万维网的先驱)的降临带来了“维罗妮卡”(Veronica)搜索引擎的诞生(Poulter,1997),它允许多词检索和布尔检索(就是可以使用and和or等运算符搜索)。尽管有这些早期的进步,1994年才真正算互联网发展的一个分水岭,不仅仅因为在这一年里万维网开始普及,还因为在这一年中出现了两个项目,后来都被当作免费服务对公众开放——它们共同改变了互联网发展的历程。 ——点击此处阅读全文
发表于 @ 2007年07月17日 11:22 PM | 评论(0) |
摘要:我的网站能从不到一周的时间,从2000升到2WIP主要就是靠的前面几种方法,我的推广方式很大众化,没有技术的限制。很多个人网站都合用。其实网站推广很简单,就是多专研,不要怕辛苦。还有流量统计这个插件很重要,能够看出一天用的宣传方法中,哪个是最有效果的,以后再专攻这个方法。网络推广的经验就是靠实践出来的。 ——点击此处阅读全文
发表于 @ 2007年07月17日 12:37 AM | 评论(0) |
发表于 @ 2007年07月17日 12:30 AM | 评论(0) |
摘要:这是大部分站长推广的方法,发一些与自己网站内容相关的帖到各大论坛,以及抢到热帖的"沙发"和板凳,还有就是签名等.有个站长得意地告诉我,他每个新站建成,首要的事就是找到论坛网址大全,一天内注册50个以上的论坛,因为现在很多论坛都设了新用户发帖时间,等到最后的论坛注册成功,前面注册的论坛也就可以发帖了。但他说一般开始不发帖,就是抢沙发。原因就是怕被封ID,他有很多决窍,我会再后面针对论坛推广的部分进行讲解。 ——点击此处阅读全文
发表于 @ 2007年07月17日 12:21 AM | 评论(0) |
摘要:对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. ——点击此处阅读全文
发表于 @ 2007年07月16日 11:11 PM | 评论(0) |
摘要:对于搜索引擎, 在索引量和搜索量大到一定程度的时候, 索引更新的效率会逐渐降低, 服务器的压力逐渐升高, 因此基本上整个搜索引擎的利用率可以说是越来越低了, 并且随着海量数据存储带来的困难, 设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了. ——点击此处阅读全文
发表于 @ 2007年07月16日 10:55 PM | 评论(0) |
摘要:马云承认雅虎中国持续亏损,但并未公布具体财务数据。他同时称,从研究数据来看,雅虎中国的搜索引擎吸引了更多企业客户,而百度的用户大多是学生。他说:“我们不需要在市场份额上同百度一争长短。”马云表示,雅虎中国将充分利用自身对于高收入用户和企业家的吸引力。他并未公布更多细节,但毫无疑问,雅虎中国将对搜索结果的权重进行调整,更加倾向于企业或商业网站。 ——点击此处阅读全文