Author Archive

发现十几万个垃圾广告外链并发现Google读取网站404页面

我之前一直以为Google在header那里得到404的状态码之后,就不读取页面的内容了,但现在看来这个想当然是错误的。

最近一些垃圾站发了很多垃圾广告链接,很多(上十万个)这些链接指向了我的网站,URL中直接带有广告内容。比如

http://mydomain.com/content/访问垃圾网站到www.垃圾.com

(我省去了url中原本应该带有的五角星之类的符号,因为我打不出来。。。)
广告语应该是电脑生成的,每个链接还不一样。

这样我的网站就多出十几万个外链,打开的都是404页面。

前两天我收到Google的邮件:
Googlebot found an extremely high number of URLs on your site http://mydomain.com/

Googlebot encountered problems while crawling your site http://mydomain.com/.

Googlebot encountered extremely large numbers of links on your site. This may indicate a problem with your site’s URL structure. Googlebot may unnecessarily be crawling a large number of distinct URLs that point to identical or similar content, or crawling parts of your site that are not intended to be crawled by Googlebot. As a result Googlebot may consume much more bandwidth than necessary, or may be unable to completely index all of the content on your site.

详细信息

我用Google站长工具查询这个网站的信息,发现404页面在高速上升。大多是上面提到的那些垃圾外链。里面提供链接来源信息,很多是这些垃圾网站,但奇怪的是有一半是来自于这个链接本身!!!这些链接本身是404页面,但我在这里动态生成了一个报错页面,提示用户打开的这个链接不存在。问题就在于提示信息中的链接可以点击!看来Google访问了这个动态的404页面的内容,并抓取了里面的链接(链接指向这个404页面本身。。。)于是Google将进入一个死循环???

我针对这个问题,做了两个回应:

1.使用Google的disavow link工具,告诉google不要抓取这些垃圾域名来的外链。
2.修改404页面的生成代码,在里面不再生成打不开的页面的链接。

效果怎么只能观察。

附:不可信的Google官方发言:404外链不会影响你的网站 (显然他们不知道垃圾链接可以这么多,多到影响网站的正常收录)


WordPress博客换主题网站百度收录被K

本月18号seozr.com网站(Wordpress博客系统)更换了外观主题。6月28号被百度K站了。 百度收录现在为0了。Google的收录变化不大。

收录情况:

百度会K改版的网站吗?
会。 但不是一定会。 百度会根据不同的情况做不同的处理。 百度的官方说法是:

站点改版有很多种(例如改换域名、改换目录、改换版面等等),不同形式百度的处理方式和时间均有所不同。 –百度站长论坛管理员

如果是内容发生根本性变化,则理论上会被视为一个全新网站,旧 有超链失效。–百度搜索引擎优化指南 官方版 2.0

至于为什么是6月28号被K,有可能是巧合,也有可能是因为6月28号是大清洗的日志。因为我听说百度在6月28号删除了不少网站。

为什么百度会K改版的网站?
我的理解是这样的: >>阅读全文


中国国内常见的搜索引擎的爬行采集蜘蛛

爬行蜘蛛(spider, bot)是搜索引擎采集网站内容的工具。不同搜索引擎使用自各的蜘蛛从网站那里抓取内容页面。大多数搜索引擎的蜘蛛都有自己的身份标识。本文收集整理经常会光顾中国国内网站的爬行采集蜘蛛,供搜索引擎优化或其它作用参考:
>>阅读全文


Goolge PR值没有取消 更新SEOQuake PageRank 参数

2011年10月6日很多SEO工具条上PR值不显示了。 有人因此断定google的PR值取消了。实际上这是不对的。Google没有取消PR值, 只是改变了访问goolge PR值的路径。 以下是最新的SEOQuake工具可以使用的goolge PR值获取参数:

[NAME]=Google pagerank
[TITLE]=PR
[URL_R]=http://toolbarqueries.google.com/tbr?client=navclient-auto&ch={gchecksum}&features=Rank&q=info:{url|encode}
[REGEXP]=Rank_.*?:.*?:(\d+)

使用这个参数,SEOQuake工具条又可以正常显示网站的PR值了。 Goolge PR没有被取消哦!


最新可用的SeoQuake百度收录统计参数

SeoQuake是FireFox上一个不错的搜索引擎优化插件。使用它可以快速查看当前网站的PR值,google收录,百度收录,yahoo链接数等参数。

可惜由于百度改版,现在的SeoQuake不能正常显示百度收录页面数量。 下午我重写了个参数,让它可以正常显示百度收录了。我把它分享在这里,希望对做搜索引擎优化的朋友有帮助:

[NAME]=Baidu index
[TITLE]=I
[URL_R]=http://www.baidu.com/s?wd=site%3A{domain|encode}&cl=3
[REGEXP]=.+?([0-9,]+).+?

Copyright © 2012 版权所有。
模板:yang基于Templates Next | Powered by WordPress