Tom企业服务指定网站分析工具
 

Google Yahoo Baidu

 
Google爬虫的威力有多大?

<< 返回前一页

作者:本文章来源于网络   发布日期:2007-11-19

Google爬虫的威力有多大?

上海火速(http://www.hotsales.net)网络营销伴侣(HotDMA,http://www.hotdma.com)特别推荐

        大家都知道现在的搜索引擎都是通过爬虫来收录网页内容的,当然,你也可以主动提交自己的网站,但接下来,还是会有各种各样的爬虫来光临你的网站。这无疑是一件好事,因为爬虫只想帮你的网站提高流量。Google的爬虫叫做googlebot,相信如果你的网站统计能统计爬虫的流量,一定会见过不少googlebot。当然,你的站得被google关注才行。Google的目标是要将全世界的信息都收录起来,可见作为Google的先锋部队,Googlebot一定会不断地加强,或者有一天,它们真的会像Philipp写的科幻短文那样,会上门偷听你所说的话,或者把你家的垃圾桶全搬走调查呢。不过不用怕,就算真有那么一天,也要快则等个十年八年,慢则几十年后。

        但是,如果有一天,你发现自己的网站里的所有内容都被googlebot删除掉了,你会有怎样的反应?我并不是说从Google索引里删掉,而真的从你的服务器里!下面就是这样一个离奇的例子。

        在Digg上面找到的这个故事里,Googlebot被怀疑是删除掉整个网站的元凶!Josh Breackman在一间负责一个大型政府网站的CMS系统开发工作的公间工作。这个CMS开发项目主要是为了让政府员工能创建或维护他们自己的网站上的不断变化的内容。但由于之前他们已经有一个网站,并且网站上面有丰富的内容,所以客户要求在新的网站正式上线之前,将旧网站的内容重组并上传到新网站里。这是一个需时较长的过程,在几个月后,他们终于把所有的旧网站上的内容都转移到新的CMS系统里,并且把新网站正式放上线,公开浏览。

        但就在网站正式上线的第六天,他们突然发现新网站上的所有内容都自己消失了!并且所有网页都指向了默认的“请输入内容”编辑页!

        很自然地,Josh被要求对这个事件进行彻查。在调查中,他发现了一个外部的IP曾经进入系统,并且删除了所有系统里的内容!这个IP并不是属于某些海外的黑客,或者目的是想破坏政府网站的信息,而是属于googlebot.com的!也就是说,这个是一个googlebot爬虫!

        那么Googlebot为什么会这么做呢?它怎么会偷偷地将一个网站的内容全部删掉了呢?难道Google与这个政府网站有过节?都不是。经过多番调查,Josh找到了原因。原来在转移内容的过程中,有一个用户将内容从一个网页复制然后粘贴到另一个网页上,其中包括了“编辑”链接,而这个链接是可以编辑内容的。在正常情况下,这个链接是没有问题的,因为外部的用户即使点了这个链接,他还需要输入有效的用户名和密码才能通过身份验证,因此他不可能进行编辑。但是,这个CMS却有一个致命的漏洞,那就是它的认证系统并没有包括像Googlebot这类爬虫在内!也就是说,Googlebot可以轻松通过它的认证系统!

        因为Googlebot没有使用cookies,所以它可以轻松地绕过cookies验证。它也不理会JS代码,所以也不会像普通用户那样点击了“编辑”链接后被自动转向到正常的未登录提示页上。因此,它大摇大摆地顺着网页上的链接把整个网站逛遍了,其中当然包括了标题为“删除网页”的网页!

        整个事件的起因是这个CMS系统存在致命的漏洞,并且更倒霉的是,它刚好碰上了Google的爬虫。

 

返回顶部

相关文章
没有相关文章

版权申明: 除部分特别声明不要转载,或者授权我站独家播发的文章外,大家可以自由转载我站点的原创文章,但原作者和来自我站的链接必须保留(非我站原创的,按照原来自一节,自行链接)。文章版权归我站和作者共有。

 

增值电信业务经营许可证:沪B2-20060022
火速旗下网站: 上海火速网络营销伴侣产品中国网络营销手册一站通@一比多
客服:021-28934188-1 客服传真:021-50805388 HotDMA咨询热线:021-50803721
上海火速网络科技有限公司 版权所有 Copyright ? 1998-2007hotsales.net All rights reserved.

不良信息
举报中心
上海市信息服
务业行业协会
网络 110
报警服务