西安力洋网站建设

西安力洋网络
  • 怎么建设一个符合优化的网站

  • 发布者:本站 发布时间:2018/8/21 9:41:13
  • 如何正确识别 Baiduspider 移动 ua

    另外需要强调的是,对于 robots 封禁,如果封禁的 agent 是 Baiduspider,会对 PC 和移动同时生效。即,无论是 PC 还是移动 Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个 url,PC ua 打开的时候是 PC 页,移动 ua 打开的时候是移动页),想通过设置 robots 的 agent 封禁达到只让移动 Baiduspider 抓取的目的,但由于 PC 和移动 Baiduspider 的 agent 都是 Baiduspider, 这种方法是非常不可取的。

    如何识别百度蜘蛛

    百度蜘蛛对于站长来说可谓上宾,可是我们曾经遇到站长这样提问:我们如何判断疯狂抓我们网站内容的蜘蛛是不是百度的?其实站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。根据平台不同验证方法不同,如 linux/windows/os 三种平台下的验证方法分别如下:

    1. 在 linux 平台下,您可以使用 host ip 命令反解 ip 来判断是否来自 Baiduspider 的抓取。Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。 

    2. 在 windows 平台或者 IBM OS/2 平台下,您可以使用 nslookup ip 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 nslookup xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。

    3. 在 mac os 平台下,您可以使用 dig 命令反解 ip 来 判断是否来自 Baiduspider 的抓取。打开命令处理器 输入 dig xxx.xxx.xxx.xxx(IP 地 址)就能解析 ip, 来判断是否来自 Baiduspider 的抓取,Baiduspider 的 hostname 以 .baidu.com 或 .baidu.jp 的格式命名,非 .baidu.com 或 .baidu.jp 即为冒充。

    Baiduspider IP 是多少

    即便很多站长知道了如何判断百度蜘蛛,仍然会不断地问 “百度蜘蛛 IP 是多少”。我们理解站长的意思,是想将百度蜘蛛所在 IP 加入白名单,只准白名单下 IP 对网站进行抓取,避免被采集等行为。

    但我们不建议站长这样做。虽然百度蜘蛛的确有一个 IP 池,真实 IP 在这个 IP 池内切换,但是我们无法保证这个 IP 池整体不会发生变化。所以,我们建议站长勤看日志,发现恶意蜘蛛后放入黑名单,以保证百度的正常抓取。

    同时,我们再次强调,通过 IP 来分辨百度蜘蛛的属性是非常可笑的事情,所谓的 “沙盒蜘蛛”“降权蜘蛛” 等等是从来都不存在的。

    robots 写法

    robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robots.txt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robots.txt 文件。

    robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace>

    在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行 , 详细情况如下:

    最后需要说明的是:百度会严格遵守 robots 的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对 robots 中所写的文件和您不想被抓取和收录的目录做精确匹配,否则 robots 协议无法生效。

    robots 需求用法对应表

    上面说了那么多理论,有没有简单对照表格告诉我,怎样的需求场景下应该怎样撰写 robots 文件?有的:

    除 robots 外其它禁止百度收录的方法

    Meta robots 标签是页面 head 部分标签的一种,也是一种用于禁止搜索引擎索引页面内容的指令。目前百度仅支持 nofollow 和 noarchive

    使用 robots 巧妙避免蜘蛛黑洞

    对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但 url 不同的动态 URL ,就像一个无限循环的 “黑洞 “,将 spider 困住。spider 浪费了大量资源抓取的却是无效网页。

    如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分是检索价值低质的页面。如 “500-1000 之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额,那么该如何避免这种情况呢?

    1. 我们以北京美团网为例,看看美团网是如何利用 robots 巧妙避免这种蜘蛛黑洞的:
    2. 对于普通的筛选结果页,使用了静态链接,如:
      http://bj.meituan.com/category/zizhucan/weigongcun
    3. 同样是条件筛选结果页,当用户选择不同排序条件后,会生成带有不同参数的动态链接,而且即使是同一种排序条件(如:都是按销量降序排列),生成的参数也都是不同的。如:
      http://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhekhttp://bj.meituan.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c
      对于美团网来说,只让搜索引擎抓取筛选结果页就可以了,而各种带参数的结果排序页面则通过 robots 规则拒绝提供给搜索引擎。在 robots.txt 的文件用法中有这样一条规则:Disallow: /? ,即禁止搜索引擎访问网站中所有的动态页面。美团网恰是通过这种方式,对 spider 优先展示高质量页面、屏蔽了低质量页面,为 spider 提供了更友好的网站结构,避免了黑洞的形成。

    禁止百度图片搜索收录某些图片的方法

    目前百度图片搜索也使用了与百度网页搜索相同的 spider,如果想禁止 Baiduspider 抓取网站上所有图片、禁止或允许 Baiduspider 抓取网站上的某种特定格式的图片文件可以通过设置 robots 实现:
    | | | --- | --- 禁止 Baiduspider 抓取网站上所有图片 , 仅允许抓取网页,禁止抓取任何图片。| User-agent: Baiduspider Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.gif$; Disallow: /.jpg$; Disallow: /*.bmp$;

    仅允许 Baiduspider 抓取网页和 .gif 格式图片 , 允许抓取网页和 gif 格式图片,不允许抓取其他格式图片| User-agent: Baiduspider; Allow: /.gif$; Disallow: /.jpg$; Disallow: /.jpeg$; Disallow: /.jpg$; Disallow: /*.bmp$;

    仅禁止 Baiduspider 抓取 .jpg 格式图片|User-agent: Baiduspider;Disallow: /*.jpg$

    503 状态码的使用场景及与 404 的区别

    Html 状态码也是网站与 spider 进行交流的渠道之一,会告诉 spider 网页目前的状态,spider 再来决定下一步该怎么做——抓 or 不抓 or 下次再来看看。对于 200 状态码大家已经很熟了,那么我们来介绍几种常见的失效网页使用的状态码:

    一些网站把未建好的页面放到线上,并且这些页面在被百度抓取的时候返回码是 404,于是页面被百度抓取后会被当成死链直接删除。但是这个页面在第二天或者过几天就会建好,并上线到网站内展现出来,但是由于之前已经被百度当做死链删除,所以要再次等这些链接被发现,然后抓取才能展现,这样的操作最终会导致一些页面在一段时间内不会在百度出现。比如某个大型门户网站爆出大量新闻时效性很强的专题未被百度及时收录的问题,经检查验证后发现就是因为页面未建成就放置在线上,并返回 404 状态码,被百度当成死链删除,造成收录和流量损失。

    对于这样的问题,建议网站使用 503 返回码,这样百度的抓取器接到 503 返回码后,会在隔一段时间再去访问这个地址,在您的页面建好上线后,就又能被重新抓取,保证页面及时被抓取和索引,避免未建好的内容设为 404 后带来不必要的收录和流量损失。

    其它建议和总结:

    1. 如果百度 spider 对您的站点抓取压力过大,请尽量不要使用 404,同样建议返回 503。这样百度 spider 会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了
    2. 如果站点临时关闭或者页面暂未建好上线,当网页不能打开时以及没有建好时,不要立即返回 404,建议使用 503 状态。503 可以告知百度 spider 该页面临时不可访问,请过段时间再重试。

    连通率为 0 的前因后果及预防补救措施

    在百度 site 站点时,遇到 “连通率为 0” 说明 Baiduspider 在访问站点时发现了问题,该问题非常严重,如果 Baiduspider 持续一天时间无法访问有可能给站点带来灾难性的损失。

    一、何谓连通率

    既然为率,那么就是一个统计相关概念。我们不妨可以这样理解一个网站的连通率:百度蜘蛛在抓取网站页面的时候计算的一个概率,比如它抓取某网站中的 N 个页面,这 N 个页面都能打开并被蜘蛛成功抓取,这样的连通率就是 N/N=100%,反之蜘蛛抓取 N 个页面有 M 个页面能成功抓取,连通率就是 M/N

    这里先说明几个常识:

    1. 不是网站被某算法惩罚而导致连通率为 0,也不是网站流量下降而导致连通率数值很低;
    2. 连通率代表着百度蜘蛛获取网站数据的情况,如果连通率数值很低或为 0,那么可能连维持网站的正常收录等都成问题;
    3. 假如网站被判定连通不了,那么如果让一个连通不了的站点在百度中获取排名,就会大大影响搜索用户的体验,于是百度就会采取对该站点有效引流的索引清除操作,一些站长就会发现自己的网站索引量突然大幅度下降,甚至索引被短暂清 0 了,接着就是网站百度搜索流量大幅度下降,这种突发性的事件又会造成站长们的揣测,以为自己的网站被百度惩罚了,其实站长们先应该注意的是站点的连通情况。

    二、提取核心词

    上述概念中,我们需要注意的几个词有:” 百度蜘蛛”; ” 在抓取”; ”N 个页面”; ”M 个页面”; ” 都能打开并被成功抓取”。

    三、连通率很低或为 0 时

    我们抓住上述 5 个提取出的核心词进行分析。

    (一)百度蜘蛛

    1. 谨防百度蜘蛛访问被操控或禁止
    2. 由于百度蜘蛛的抓取量等原因对一些服务器造成压力,而这些网络商或网站运营方从某利益角度考虑,无意或有意的屏蔽百度蜘蛛,导致部分或全部百度蜘蛛 ip 获取不到网站数据;
    3. 一些网站运营方或网络商对蜘蛛进行区别对待,比如国外蜘蛛 ip、山东蜘蛛 ip、北京蜘蛛 ip 等返回不同的数据,移花接木的手段层出不穷,而这个过程很可能造成百度蜘蛛的异常行为或异常状态返回;

    所以我们首先要确保百度蜘蛛的访问有没有被操控或禁止。

    1. 预防措施
    2. 完善联系方式获得百度站长工具消息提醒
       虽然一些网站异常情况会收到百度站长工具消息提醒,然而我想告诉大家不是所有自己站点异常都可以寄希望于消息提醒的,自己心里要知道连发邮件都可能出现收不到的情况,更何况各种复杂的异常情况,因此不要出问题了只会问 “为什么站长工具没有给我发消息”。

    3. 利用抓取异常和抓取频次工具观察抓取情况
      ↓抓取异常工具的网址异常情况

    ↓抓取频次工具的抓取统计情况



    ↓每个工具页面的右侧下方都有使用说明,如下


    (3)抓取诊断工具是重中之重


    为了保证网站对百度蜘蛛的稳定访问性能,日常我们需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否 “抓取成功” 就行了。有下面几步进行:


    特别说明:有很多站长就光注意抓取成功,却不知网站 ip 可能并非自己的实际 ip,被网络商搞到哪里去了都不知道,还可能每隔一段时间都变。当发现 ip 有问题,及时跟网络商沟通,并在网站 ip 旁点击 “报错” 按钮,百度会更新网站 ip,但是切记不要 ip 变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。

    (二)在抓取

    这是反映百度蜘蛛在抓取时的状态,百度的工具显示的数值肯定都是抓取后计算出来的数据,因此任何工具的连通率数据必定存在延迟性,另外这个计算过程也存在一定可能的错误,所以我们看到任何工具中关于连通率的数据,不要说 “我网站用抓取诊断等工具检查访问情况都好好的,为什么连通率还是 0”,因此除了上述建议的多抓取诊断测试外,自己可以加些监控网站连接状态的措施,笔者本人就曾经接收了不少关于网站连接不通的提醒。这时我会及时跟网络商沟通,然后及时用抓取诊断检查蜘蛛的情况。

    (三)N 个页面与 M 个页面

    这 N、M 个页面,可能百度蜘蛛很凑巧就赶上高峰的时候或者一些假死页面(执行时间较长,超过蜘蛛的耐心),那么 M 这个数值就会很低,统计概率的东西大家都懂的,那么这时网站的连通率依旧很低或为 0。因此若连通率为 0,我们还可以知道自己应该注意查看访问日志,及时清理死链,或者并发连接数增大,或者增加内存等等。

    (四)都能打开并被成功抓取

    这里主要注意 DNS 和空间的稳定性。

    1. DNS 的问题 参考当心 dns 服务器不稳导致站点被屏

    提醒大家注意的是现在不少云类 ns 服务器,这个过程中由于处理机制问题,包括回源障碍等等,较容易造成这个问题。另外国内大型服务商提供,比如你使用了 dnspod,并不代表你的 dns 就应该是 ok 的。有的站长存在着对大型服务商的错误认识,如 “新网的 dns 就是不可靠的,我都用百度云加速”。我们要明白廉价的东西质量都有一定局限性,所以需要自己检查 dns 解析情况,具体上网找找相关资料或平台,看看 dns 解析出的 ip 以及解析延迟情况等等。

    1. 空间的稳定性 很多人都会用超级 ping 了,这个不多说了。但是我还要告诉大家有下面两点需要注意:
    2. A、不良的网络商会对不同用户 ip 进行不同处理,自己可以用 vpn 等工具观察下不同地区 ip 段的网站访问情况与返回内容;
    3. B、空间的资源不足,内存、并发连接等等,当访问量很少的时候,自己察觉不出,需要提高访问量,增加连接时间。因此使用一些监控工具时,发现监控工具访问测试量巨大,或者被人刷流量时,你应该庆幸,而不是着急拒绝,因为你可以了解到自己的空间承压能力。

    四、连通率问题处理完毕后

    如果你的网站索引由于连通率而非惩罚原因被清理了,处理完毕问题,可以在抓取频次工具中提交增加抓取频次的请求,将抓取频次增加到一定额度(建议自己查看工具中对抓取频次的说明后再根据网站实际情况调整),然后增加自己的网站数据更新频率与质量,加强与百度的数据沟通(如 url 提交、sitemap 等等),很快就能恢复。相关工具展示如下(每个工具页面的右侧下方都有相关说明链接,可以点击去了解使用注意事项):

    1. 抓取频次中的频次调整工具:

    2. 链接提交工具:

    3. 链接提交工具中的主动推送、sitemap、手动提交方式:

    https 站点如何做才能对百度友好

    2015 年 5 月 25 日,百度站长平台发布公告,宣布全面放开对 https 站点的收录,https 站点不再需要做任何额外工作即可被百度抓收。采用了本文之前建议的 https 站点可以关闭 http 版,或者将 http 页面跳转到对应的 https 页面。

    百度搜索引擎目前不主动抓取 https 网页,导致大部分 https 网页无法收录。但是如果网站一定要使用 https 加密协议的话该如何做到对百度搜索引擎友好呢。其实很简单:

    1. 为需要被百度搜索引擎收录的 https 页面制作 http 可访问版。

    2. 通过 user-agent 判断来访者,将 Baiduspider 定向到 http 页面,普通用户通过百度搜索引擎访问该页面时,通过 301 重定向至相应的 https 页面。如图所示,上图为百度收录的 http 版本,下图为用户点击后会自动跳入 https 版本。

    1. http 版本不是只为首页制作,其它重要页面也需要制作 http 版本,且互相链接,切不要出现这种情况:首页 http 页面上的链接依然链向 https 页面,导致 Baiduspider 无法继续抓取——我们曾经遇到这种情况,导致整个网点我们只能收录一个首页。如下面这个做法就是错误的:http://www.abc.com/ 链向 https://www.adc.com/bbs/

    2. 可以将部分不需要加密的内容,如资讯等使用二级域名承载。比如支付宝站点,核心加密内容放在 https 上,可以让 Baiduspider 直接抓取的内容都放置在二级域名上。

    站点切换 https 不会对流量产生负面影响

    禁止百度保留快照的代码:noarchive

    很多站点出于隐私的考虑不希望百度保留快照,网上也在讨论如何禁止百度保留快照的方法。其实百度早已对此有过说明,但藏在一篇不起眼的文章中不引人注目,导致依然非常多的人不清楚该如何操作。上周恰好又有人问到这个问题,特意进行说明。

    要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的

    部分:<meta name="robots" content="noarchive">

    要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:<meta name="Baiduspider" content="noarchive">

    注:此标记只是禁止百度显示该网页的快照,并不会影响网页建入索引,同时垃圾网页也不可能依靠此手段逃避百度的判罚。

    买卖链接对站点的危害

    众所周知,搜索引擎会对站点获得链接的数量和质量进行分析,从而做出对网站的评价,最终影响站点在搜索结果中的表现。在搜索引擎看来,站点的链接质量比数量更为重要,然而愈演愈烈的链接买卖风潮,已经开始威胁到搜索引擎的公正性。为此百度质量团队推出了绿萝算法对买卖链接行为进行打击。

    搜索引擎认为站点每发出一个链接指向另一个站点,都是一次投票行为,请您珍惜每一次投票的权力,而不是将这个权力出售,更不应该打包卖给链接中介公司。如果搜索引索发现站点有出售链接的行为,则会影响到站点在搜索引擎系统中的整体表现。对于广告类的链接,请您使用nofollow属性进行设置。除不出售链接外,您还应该关注建站程序的安全更新,及时安装补丁程序;经常对网站发出的链接进行检查,看是否有多余的、非主观意愿存在的链接,以免站点在不知情的情况下被黑帽SEO添加链接。

    建议您不要企图求助于黑帽SEO和链接中介公司,他们很有可能使用极不正当的手段令站点在短时间内获得一定效果,但是搜索引擎有专门的程序去识别各种手段和行为,一旦被发现,站点会无法得到预期的效果,甚至被搜索引擎惩罚处理。最后,希望各位站长放眼于长远的未来,不要为眼前的蝇头小利所迷惑。将精力放在在自身内容和品牌建设上,拓展更多良性发展的盈利模式。

    内链建设的大忌

    在《百度搜索引擎工作原理》课程中我们提到过,Baiduspider需要知道站点里哪个页面更重要,其中一个渠道就是内链。那么内链建设有哪些大忌呢:

    死循环链接:死循环链接是搜索引擎蜘蛛最郁闷的事情了,往往会把搜索引擎蜘蛛卡在一个角落中,无限的循环而走不出来,不仅白白浪费蜘蛛体力,也会占用网站大量爬取频率,造成有价值的网页抓取不全。比如万年历等非常实用的工具网站,很多时候这些工具你都可以无限的点击,每次点击都产生一个新的url,如果你没有屏蔽蜘蛛爬取这些内容,那么蜘蛛有可能会被带入到一个无限循环的境地,这样的做法对任何一个搜索引擎都是不友好的。
    还有一种就是动态、带“?”号的url。这是由于动态网站的一个动态文件(如.php)可以产生上万个或者无数个链接,如果部分php文件内部又再次链向自己。蜘蛛进去就很难再爬出来。

    链接404后不消除内链入口:页面404后,除了需要向百度站长平台提交外,应该尽量关闭其在网站内部的入口,一来死链对用户的伤害是极大的,二来避免令蜘蛛产生错觉,认为你网站死链严重。

    只有入链没有出链:有些人认为网页上的出链太多会分散页面本身的得分,所以在重要页面上不设计出链,实际这与百度的认知是相悖的,百度认为一个优质的网站结构应该像一张网,所有页面都会与其他页面产生链接,蜘蛛会顺着一个页面遍历所以页面。只有入链而没有出链的结构对蜘蛛来说是不友好的。当然,整个网站仅一两个网页只有入链没有出链是无所谓的,但数量千万不要多。

    无返回上级目录的链接:我们提倡尽量在每个页面上使用面包屑导航,以告诉搜索引擎页面内容与首页的关系及距离;同时对于用户来说,面包屑导航也是延长用户平均访问时长的重要工具。只有内容而没有返回上级目录的页面就像一本永远无法访问目录的书,听起来是不是怪怪的?

    错误的锚文本:内链的作用并不仅仅是页面权值传递和内部投票,百度还会通过锚文本辅助判断网页的内容,错误的锚文本很可能会误导百度对于相关性的计算,对搜索排序产生负面影响。同时对于只能通过锚文本来判断是否要点击打开新网页的用户来说,无疑也是一种伤害。

    网站应该拒绝哪些外链

    百度搜索引擎虽然降低了对超链的依赖,但依然没有放弃对不同质量链接的识别,制定了一套针对优质外链、普通外链、垃圾外链、作弊外链的识别原则和方法。在继续信任优质外链的同时,加大对作弊外链的打击,同时对部分作弊外链的受益站点进行打击。为了避免被百度搜索引擎怀疑为超链作弊,建议站长定期检查站点的外链情况,发现异常及时通过百度站长平台的拒绝外链工具进行自我保护。同时如果你之前有过购买链接、群发外链的行为,可以通过拒绝外链工具进行修正。

    那么除了要拒绝被黑网页发出的链接、买来的链接外,还有哪些链接应该被拒绝呢。

    使用拒绝外链工具还有一些注意事项:

    网站改版该如何通知百度

    为了改变站点运营效果,部分站长会选择对网站进行改版。百度站长平台站在搜索引擎的角度给站长朋友一些建议:首先站长们应该明确,网站只要发生大大的变化(如换域名、子目录改版为二级域名等),流量就会受到损失;其次,百度站长平台会帮助站长尽量将损失降到最低。请站长依次走完以下步骤以减少损失。

    网站换空间(IP)该如何通知百度

    在与站长朋友私下交流中,站长表示:最怕改版,最怕换空间换IP,每次都是万不得已身不由己。改版还好些,有改版工具可以使用。换了空间和IP都不知道怎么通知百度。其实,登录百度站长平台,使用抓取诊断工具,换空间和IP真的不是愁事。
    抓取诊断工具会检查站点与百度的连接是否畅通,若站长发现IP信息还是老旧的,可以通过“报错”通知百度搜索引擎更新IP,如下图所示:


    重要提示:由于spider精力有限,如遇报错后网站IP依旧没有变化,站长可进行多次尝试,直至达到预期。

    UGC站点如何进行防护工作

    由于大多数UGC建站系统存在漏洞,攻克技术成本较低,且群发软件价格低廉,容易被作弊者利用,近期我们发现大量UGC站点被群发的垃圾信息困扰。这些垃圾群发内容无孔不入,除论坛、博客等传统的UGC站点受到困扰外,现已蔓延到微博、SNS、B2B商情页、公司黄页、分类信息、视频站、网盘等更多领域内,甚至连新兴的分享社区也受到了影响。从以前的论坛帖子、博客日志,扩展到供求信息页、视频页、用户资料页,这些任何由用户填写和生成内容的地方,都会被作弊者发掘利用,形成大量的UGC性质的垃圾页面。

    搜索引擎在发现UGC性质的垃圾页面后必将做出相应应对,但对真正操作群发的作弊者很难有效的打击,所以作弊者容易利用UGC站点极低成本且自身安全这些特点,做出更多危害网站、危害用户、危害搜索引擎的行为。若网站自身管理不严控制不力,很容易成为垃圾内容的温床;有些网站为了短期流量而对垃圾内容置之不理,这无异于饮鸩止渴。网站不应仅仅是平台的提供者,更应该是内容的管理者,积极维护网站自身质量非常重要。若网站任由垃圾内容滋长,不仅会影响网站的用户体验,同时也会破坏网站口碑和自身品牌建设,造成正常用户流失,严重时,还会使搜索引擎降低对网站的评价。

    对于作弊者来说,在UGC站点上发布垃圾内容的目的就是被搜索引擎收录,如果不能让垃圾页面在网站和搜索引擎上消失,他们依然会持续不断地产生更多垃圾内容。百度站长平台希望和站长一起打击垃圾页面,帮助网站良性发展,共同维护互联网生态环境。

    一,UGC垃圾典型case

    二,UGC管理员该怎么做

    网站安全之防止被黑

    这里所说的被黑,指黑客通过网站漏洞篡改网页内容、为网站恶意添加许多垃圾页面,内容往往与博彩、游戏等热门关键词有关,然后利于网站在搜索引擎中的天然优势骗取更多流量。互联网上所有网站其实都存在被黑的可能,尤其是已在搜索引擎中获得较好表现的站点更要注意,千万不要让被黑令自己的心血付之东流。

    一,如何判断网站被黑

    先通过外界对网站进行观察,如果有如下现象,那您的网站可能被黑了

    二,进一步验证网站是否被黑

    通过上述方法站长怀疑自己的网站被黑了,那么该如何对黑出来的内容进行排查呢?

    【重要提示】若直接访问网站时一切正常,但在百度的搜索结果展现了异常的快照内容,这可能是黑客做了特殊处理,只让百度蜘蛛抓取到异常的页面,以此来增加隐蔽性,让站长难以发现;同理,若直接访问网站正常,但从百度搜索结果页进行访问时,出现了异常页面,这是黑客针对百度来源(refer)做了特殊处理

    三,网站被黑怎么办

    网站安全之域名被劫持

    2014年5月14日,前瞻网官方微博发布公告,宣布域名被盗损失过亿。在黑客遍行的今天,域名被盗被劫持几乎每天都在发生。百度搜索引擎希望站长在关注收录、流量、变现的同时,多多关注域名安全,毕竟域名安全是生存之本。在之前与站长接触中,发现站长都有如下心理:域名控制权完全在服务商,我们处于被动的一方。那么站长就真的什么都不用做、什么都无法做了么?

    一,域名被劫持的严重后果

    1,域名被解析到其它地址,用户无法正常访问,网站流量受损 2,通过泛解析生成大量子域名,共同指向其它地址(往往是恶意垃圾网站) 3,域名被解析到恶意钓鱼网站,导致用户财产损失 4,当域名被劫持后的内容干扰搜索结果时,为保障用户的使用体验和安全,百度搜索引擎会暂时关闭对域名的收录和展示,待严格审核确认后才会再度放开

    二,如何降低域名被劫持风险,减少损失

    三,域名被劫持后该怎么做

    其他

    关于网站建设,其实还有很多零碎的问题要注意,所以在这里单启一篇,日后再根据反馈不断补充完善。

    二级域名和子目录,哪个更有利于SEO

    一,二级域名的特点

    搜索引擎往往将二级域名当作一个独立的网站看待,同时会视情况将主域名的评价传递一部分给二级域名。使用二级域名会使同domain下站点变多,但是每个站点的体量变小。二级域名的SEO特点是:

    二,子目录的特点

    将不同内容通过子目录的情况放在同一个网站下,会使网站体量变得越来越大,可以使网站积累更多的投票:

    三,二级域名与子目录的选择

    选择使用二级域名还是子目录来分配网站内容,对网站在搜索引擎中的表现会有较大的影响,为此百度站长平台建议:

    多域名同内容的常见问题

    网站在生存发展中会遇到很多问题,会因为各种原因产生不同的域名,而这些域名的内容却都是相同的。百度一直在说拒绝重复内容,那么,多域名同内容是否会对SEO产生负影响呢?我们收集了众多站长对多域名同内容的问题后,请百度spider专家做了统一解答,现公布出来供各站长参考。

    问:多个域名指向同一个域名算是作弊么?
    答:如果某公司从品牌保护或长远发展角度出发,注册了多个域名,且多域名301重定向指向一个常用域名,那此行为本身不属于作弊。但是如果进行301重定向的多域名本身有作弊行为,那么被指向的域名有可能受到牵连。

    问:多个域名同内容是否有利于提高排名?
    答:此举非常不利于提高排名,因为多个域名会分散原本应该属于单独域名的外链进而影响权重,不利于单独域名获得更好的排名。

    问:我们先推个测试域名,走上正轨后再启用正式域名,会有什么影响吗?
    答:如果两个域名的内容完全一样,对正式域名的收录可能会有影响。搜索引擎会认为这两个网站重复,在已经收录了前者的前提下,会对后者限制收录。的确曾经有某理财网站先搞一个临时域名在搜索引擎试水,结果等正牌域名上线后却迟迟得不到收录的事情发生。

    问:如果公司已经有多个域名是相同内容该怎么处理?
    答:先确认一个好记易懂的域名作为“唯一域名”,进行重点宣传推介,其余的域名也千万不能放任自流,尤其是当测试域名已经有了较好的收录和排位时,可以设置301重定向,指向唯一域名。同时登录百度站长平台对新旧网站进行验证,然后在网站改版工具中进行相应的操作,可以让“唯一域名”继承原域名已获得的权重。
    网站改版工具地址&帮助说明

    转载自:http://zhanzhang.baidu.com/college/courseinfo?id=150

  • 深度挖掘网站的商用价值,化繁为简的设计,为企业找到直接有效的解决方案
    +86 (029) 88765320
    +86 15829904657
    地址:西安市未央区文景路11号
    星舍大厦5F P.C:7100001
    boss@178365.net
    在线咨询: 985224206
    中国互联网协会成员单位
    西安蓝谷信息技术有限公司 | 版权所有
    Copyright 2008-2018 Lagoo.Inc All Rights Reserved.
    陕ICP备09022519号