各大搜索引擎算法的改变影响网站

内容抓取无疑是中国互联网内容营销人员面临的最大威胁。尽管百度仍在测试其原创内容保护功能,但仍有一些选定的网站,他们发布了一项名为“Hurricane”的算法更新,该算法将在那些网站上获得大部分的内容。

你可能还会在百度的图片搜索结果中找到版权标签。这个标签是为了鼓励内容营销人员生成更多原创图片和图片。

百度图片搜索的版权标签

履带

为了更好地理解用户页面的外观,百度在3月份开始用页面渲染功能测试它的新蜘蛛。现在,搜索引擎在功能上有两个新的蜘蛛。

页面大小/ URL长度

百度说,你的页面大小(HTML)不应该超过128 KB。使用二进制图像数据转换为HTML的页面很容易使页面大小超过128 KB,这对试图解析页面的百度爬行器造成了问题。事实上,如果你有一个太大的页面,最好的做法是(对百度搜索引擎优化)来实现分页。另一个技巧是避免在输出中添加不必要的代码,以防它溢出页面。更多文章阅读:服务器租用cn.bluehost.com

除了页面大小,URL长度在被索引的页面中扮演着重要的角色。在Merkle,我们注意到干净的和短的网址会更快的被索引并且排名更高。推荐的URL长度是76个字符,不包括协议。因此,在采用URL约定时,您需要避免在URL中使用中文字符,因为转码将使这些URL比中文字符长得多。

404页/删除页面

今年5月,百度发布了一篇关于如何管理404页面(中文)的文章。在百度上处理404页面与谷歌或必应不同(更复杂)。以下是建议的行动方针:

如果你的网站页面已经不存在或者你需要删除,你首先要做的就是确认这些网页是百度索引的。你可以在百度上搜索网址,或者查看你的网页分析工具。

下一步是将这些url的状态代码设置为404。当然,这些url不应该在您的robots中被禁用。

现在,将这些页面编译成XML或TXT文件,并确保该文件中的每个URL都被设置为404。

提交给百度网站管理员工具。去指数化将在2-3天内生效。一旦页面不再在索引中,删除您提交的XML或TXT。

在百度网站管理员工具中提交404文件。

或者,如果你想删除一个从字符串开始的文件夹或者一组url,你可以把这个模式提交给百度网站管理员工具。此模式必须以斜线(/)或问号(?)避免廉价的域名

如果您在顶级域(TLD)上运行您的业务,例如 .top 或者 .win,你需要意识到你的网站可能会向Baudi发送垃圾邮件。

其他的垃圾邮件包括,但不限于.bid, .pw, .party 和 .science。这些领域是便宜的。因此,百度看起来很可疑。

每年3美元以下的域名

根据百度(中文)的说法,这些廉价的TLDs是指数化的低优先级。如果你坚持使用这样的域名,你必须用百度网站管理员工具来验证它,这样它就可以被认为是一个合法的网站。

百度缓存

百度第一次解释了缓存页面(被称为“百度快照”)是如何工作的(中文)。当百度抓取页面并将其添加到索引(或更新已索引的版本)时,会生成缓存页面。您的缓存页面的更新程度取决于站点的爬行频率,它的频率可能从几分钟到一个月不等(取决于站点)。

如果你阻止了百度的蜘蛛.js和.css资源,或者如果您在HTML中使用相对的URLs,快照将会看起来很奇怪并且没有格式化。如果您想要删除快照,您可以报告一个不适当的缓存页面。

报告不适当的缓存删除。

推出一个新网站

我分享的最后一个建议是,在推出新网站时,如何给百度一个惊人的第一印象。

在发布的时候,您可能只有少量页面,或者您有许多页面质量很低(短/空或重复的内容)。不幸的是,这对百度来说是一场灾难。在推出一个强大、高质量的网站时,你可以看到百度,你知道如何组织你的内容,提供可靠的信息。如果你没能给人留下良好的“第一印象”,那么百度就会在未来分配更少的资源来抓取你的网站——因此,很难赢回他们的信任。

为了解决这个问题,百度建议(中文)在UAT(用户接受测试)或邀请期期间不允许该网站。