半点优化网 http://www.bdxc.net/
当前位置首页 > 网站技术问题> 正文

有什么好方法防止自己网页的内容被采集

2022-05-12 16:40:24 暂无评论 142 网站技术问题 采集   防止   网页

防止自己网页的内容被采集有非常多的方法

方法一:内容配图加水印

当你的文章中含有图片时候,可以给图片打上水印,这样就留下了你的信息,对方要采集或者复制您文章后,不可能一张一张的去处水印,这样也算是变相地帮助我们宣传网站。

方法二:内容随机穿插版权信息

在不影响用户阅读体验的情况下,尽量在内容段落之间随机插入一些之间的信息,比如:网站名字,链接,版权作者,QQ等,这样的话,就算对方使用采集器过滤也不可能每篇文章都能过滤得掉。

方法三:作品结尾留作者信息及链接

不过这个方法作用不是很大,因为很多人复制或转载内容时直接去掉了,可以参考方法二,适当在段落结尾处不影响阅读的情况下下随机插入较好。

方法四:主动推送网址给百度收录

百度给出的链接提交方式有以下三种:

1、主动推送:最为快速的提交方式,推荐您将站点当天新产出链接立即通过此方式推送给百度,以保证新链接可以及时被百度收录。

2、sitemap:您可以定期将网站链接放到sitemap中,然后将sitemap提交给百度。百度会周期性的抓取检查您提交的sitemap,对其中的链接进行处理,但收录速度慢于主动推送。

3、手工提交:一次性提交链接给百度,可以使用此种方式。

方法五:利用JS加密网页内容

这个方法是在个别网站上看到的,非常暴力。缺点:搜索引擎爬虫无法识别收录和通杀所有采集器,针对极度讨厌搜索引擎和采集器的网站的站长使用,量力而行,您能豁出去了,别人也就没办法采集你了。

方法六:网站随机采用不同模版

分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。

适用网站:动态网站,并且不考虑用户体验。

采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

方法七:利用脚本语言做分页(隐藏分页)

分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。

适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识。

采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

方法八:限制IP地址单位时间的访问次数

分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。

弊端:一刀切,这同样会阻止搜索引擎对网站的收录。

适用网站:不太依靠搜索引擎的网站。

采集器会怎么做:减少单位时间的访问次数,减低采集效率。

希望可以帮到你!

  作为一个刚上线的小站,我们都知道需要大量的原创内容,不少站长都在坚持撰写原创内容,虽然原创内容写起来比较耗费时间和精力,但对于新站的意义是 很大 的,百度喜欢原创内容,新站更不能去抄袭和伪原创,否则很容易被百度认为是采集站。那么离网站被K也 就不远了,不过几乎所有的小站都面临一个头疼的问题:自己辛苦撰写的原创内容被采集或者盗用,一旦小站上的内容被采集或盗用了,由于刚上线的小站根本没有 什么权重,所有收录本来就比较慢,可以说随便一个网站采集你的内容,那么首先收录内容的都不会是自己的站点。这样自己的辛苦也就算是白费了,可是现在还没 有很好的办法去彻底杜绝这种现象,当然有些方法还是可以使用的,至少在一定程度上有作用。下面笔者整理了几种,当然你要有更好的方法不妨分享一下:   第一:从网站程序入手,禁止大规模的采集   在 互联网上抄袭和被抄袭都是司空见惯的事情,笔者自己也采集过其他网站上的内容,但是有些站点是防止采集的,原理说起来也比较简单,就是如果碰到使用火 车头等采集器,那么程序就能判断出这不是人工在点击页面,因为软件运行的速度非常快。然后程序就能对采集者的网络IP进行屏蔽,这样你就无法采集到内容 了,这种方法是防止大规模的采集内容。还有一种情况是人工的采集,也就是去别的站上直接复制和粘贴,这样情况是最难杜绝的,当然也可以使用JS代码去屏蔽 一下,具体来说就是禁止用户按复制、粘贴,或者干脆禁止查看源代码,这些JS代码网上也有很多,不过说实话还是不能彻底去杜绝抄袭的现象。有的采集软件非 常厉害,甚至你的站点上页面还没放出来,都能被采集到。   第二:在文章内容中隐藏锚文本链接或版权   通 常情况下,我们写完一篇原创文章都喜欢在末尾加上版权信息,可是这样的版权信息没有实际意义,别人既然选择了抄袭或采集,自然不会去管那些东西。而且文章 末尾加链接或锚文本也不是一个好习惯,最好是在文章内容中自然出现关键词或锚文本链接,如果别人采集你网站上的内容能够带上链接,那样的话损失也不算大, 也就是免费给你做外部链接了,关键是如何隐藏好链接,避免被别人给删掉,在文章结尾的地方加链接肯定一眼就能看到,所以我建议尽量在文章内容中加链接,另 外还可以把锚文本的颜色设置跟普通文字的颜色一样,这样不容易被别人发现,其实有很多的站长比较懒惰,有时候不会去检查的那么仔细。总之,这也是一种治标 不治本的方法。   第三:更新网站内容后将URL提交给百度   之所以防止别人抄袭或采集,根本原因还是担心百度不再收录自己 站点的内容,因此我们在更新网站后可以把文章URL直接提交给百度,ping一下没有坏 处,虽然百度不会马上收录这些URL,但是通过ping或外链吸引确实可以让百度蜘蛛快点过来。2012年 百度推出原创星火计划,这是一套完善的原创内容识别系统,当然也会涉及到小站上的优质内容,目的就是鼓励原创内容,打击采集或抄袭的现象,让原创内容最快 的收录。不过目前看来原创星火计划还处于初期试验阶段,至少在小站上没有什么好的体现,本文介绍了三种途径或方法去杜绝内容被盗用,可惜的是没办法从根本 上去解决这个问题,最后笔者只能说根据自己情况去选择吧。只希望百度能够在技术上有所提升,尽可能的让原创内容收录更快。   身为一个站长 或SEO人, 抄袭和伪原创几乎谁都接触过,也许你很痛恨别人抄袭你的文章,尤其是抄袭后把链接都给删掉,可想想自己是否也这么做过呢?抄袭别人的内容确实不好,但事实 上互联网上有太多抄袭的内容。我们只能用一个淡定的心态去看待这个问题,除非百度的原创星火计划真的很给力,从根本上解决这个历史遗留下的问题,否则抄袭 和反抄袭将会一直存在,笔者就写到此,原创内容还得继续去写!   文章来源:化妆学校makeup/ 原创撰写 转载保留地址

猜你喜欢