垃圾邮件和不良机器人流量总是会攻击您的网站
已发表: 2022-12-03我似乎每天都花越来越多的时间来监控和阻止垃圾邮件和恶意机器人流量。
您的博客或网站是大是小并不重要; 机器人一直在攻击它。
当我检查几个每天访问者很少的小型网站时,总是有源源不断的自动机器人流量。
但为了让您了解有多少网络流量是自动化的、恶意的或垃圾邮件,我完成了对 Just Publishing Advice 的全面审核。 这是结果。
监控垃圾邮件和不良机器人流量
您可能会使用 Google Analytics (GA) 检查您的流量数据。
它是了解您的博客或网站表现如何的最佳免费工具之一。
没有什么比看到用户数量和页面浏览量稳步增长更好的了。
但它没有告诉您的是您的网站收到了多少自动、可疑或恶意访问。
如果您想发现 GA 忽略或遗漏的流量,您需要更深入地挖掘其他数据源。
我使用一些工具来监控和保护我的网站免受不良行为者的侵害。 幸运的是,其中大部分都是免费的。
我使用的唯一付费服务是 Statcounter,每月只需 9.00 美元。
它收集与 GA 类似的数据,但最大的优势是它报告 IP 地址和出站链接活动。
因此,我可以监控和管理抓取工具、自动机器人点击并检查无效的 Adsense 广告点击。
现在用数据向您展示我的发现。
垃圾邮件和不良机器人流量活动的详细信息
平均而言,我的网站每天收到大约 3,500 次真实用户访问。
我总是想要更多,但这还不算太糟糕。
但这还不是全部。
当我检查和收集来自其他来源的访问数据时,我网站的实际点击量约为每天 11,500 次。
如您所见,我网站上发生的事情比大多数分析工具报告的要多得多。
查看此数据的更好方法是百分比。
这是我平均每日网站流量的百分比细分。
在每天访问我网站的所有访问量中,只有 32% 是真正的访问者流量。
然而,这个数字似乎是平均水平。
Help Net Security 在 2021 年报告称,自动化流量占互联网流量的 64%。
每个站点都受到机器人流量的攻击,所以这是一个不争的事实。
但是不时检查您的网站流量仍然是值得的。
如何访问您网站的垃圾邮件和恶意机器人流量数据
正如我之前提到的,我主要使用免费工具。
这些构成了我抵御垃圾邮件和不良机器人流量的防线。
1.云彩
您可能认为 Cloudflare 只是一个用于加快站点加载速度的 CDN。
但这只是免费帐户的附带好处。 使用 Cloudflare 的真正优势是安全性。
它的 Web 应用程序防火墙 (WAF) 是我的第一道防线。
出于隐私考虑,我屏蔽了 IP 地址。 但是你可以看到这一天发出的区块和挑战总数是1,728。
借助 WAF,您可以设置自己的防火墙规则或使用工具来阻止或质询 IP 地址或 ASN。
它是迄今为止管理网站上不受欢迎的流量的最佳工具。
2. Wordfence
我的第二道防线是我网站上的 Wordfence 插件。
它阻止任何可能通过 Cloudflare 的恶意流量。
块的数量每天都在变化。 但平均而言,它每天会阻止 250-450 次尝试。
3.服务器保护
最后一道防线是我的 ISP Apache 服务器。
从访问和错误日志中,我可以扫描服务器阻止的任何不良活动。 我还可以检查是否有任何允许的活动看起来可疑。
然后我可以使用 Cloudflare 或 Wordfence 来处理我发现的任何可疑活动。
捕捉垃圾邮件发送者
垃圾邮件发送者与其说是一种威胁,不如说是一种麻烦。
但是有相对简单的方法来管理它们。
WordPress评论垃圾邮件插件
Akismet 是一个免费插件,可以很好地打击博客上的垃圾评论。
准确率在99.5%左右,所以效果很好。
我的网站上大约有 4,000 条合法评论。 但是 Akismet 已经屏蔽了超过 75,000 条垃圾评论!
如果您收到大量垃圾评论,唯一的缺点是您必须不断删除 Akismet 捕获的垃圾评论。
Cloudflare 防火墙规则阻止评论垃圾邮件
您访问网站的流量越多,您收到的垃圾评论就越多。
在这种情况下,您可以采用简单的 Cloudflare 防火墙规则来解决问题,该规则将阻止来自您网站的垃圾评论发送者。
这条规则的好处是它对垃圾评论非常有效。 唯一的小缺点是它给真正的评论者增加了一点摩擦。
他们将在 2-5 秒后快速收到一条 Cloudflare 通知,上面写着“正在检查您的浏览器”,然后他们才能发表评论。
大多数人都熟悉这一点,所以这不是什么大问题。
但是因为垃圾邮件发送者不使用普通浏览器来注入评论,所以他们会被阻止。
要使用此方法,请将以下规则添加到您的 Cloudflare 防火墙。
规则名称:您可以选择任何名称来标识您的规则。
字段: URI 路径
运算符:包含
值: /wp-comments.php
动作: JS 挑战
激活规则后,您可以检查它的工作情况。
如果将鼠标悬停在百分比上,您将看到解决了多少挑战。
解决的数字通常是通过 JS 挑战的真实评论。 您可以在您网站的日志中查看这一点。
这是通过并成功进入我的审核队列的真实评论的日志。
红色矩形突出显示 Cloudflare 检查成功。
这不是大多数网站的规则。 但是,如果您的网站受到大量评论垃圾邮件的攻击,它就非常有效。
如您所见,随着时间的推移,我不得不删除超过 75,000 条垃圾评论。
但是有了这个规则,现在几乎没有人通过。
需要注意的一件事是,使用此规则,对于每次失败的垃圾评论尝试,您可能会看到 Cloudflare 阻止了 4 次点击。
这是正常现象,因为 Cloudflare 正在阻止垃圾邮件发送者正在使用的脚本的操作。
但是,对于真正的评论,您会在防火墙中看到一个条目,因为用户已经通过了 JS 挑战。
因此,如果您看到规则每天阻止 300-400 次尝试,请不要惊慌。
如果垃圾邮件发送者手动发布,您可能仍会偶尔收到垃圾邮件评论。 但 Akismet 通常会捕获它。
如果您受够了垃圾评论发送者,则此防火墙规则将为您完成这项工作。
SEO垃圾邮件
链接外展活动现在只不过是垃圾邮件。
在过去的几年里,要求反向链接被认为是一种合法的做法。
但是现在,像 Semrush 这样的 SEO 工具可以很容易地自动将这些活动直接发送到您的电子邮件地址。
除了在这些电子邮件到达时将其删除之外,您无能为力。
在我的例子中,它可以是每天 100-200 个,要求链接、访客帖子或赞助帖子放置。
对我来说,这个数量绝对是我认为无非是纯粹的垃圾邮件。
你能用刮刀做什么?
Python 和其他形式的网络抓取正变得越来越普遍。
要知道该怎么做并不容易。
最近,Linkedin 试图阻止网络抓取,但美国法院裁定抓取是合法的。
找到访问您网站的 scaper 相对容易。 您可以在服务器访问日志中搜索用户代理,例如 python-requests 或 python/3。
您还可以设置临时 Cloudflare 防火墙规则并发出 javascript 质询。 (http.user_agent 包含“python-requests”)或(http.user_agent 包含“Python/3”)
但是除了监视它之外,您几乎无能为力。 您真正需要挑战或阻止爬虫的唯一时间是它过于频繁地访问您的网站。
我有一个每天从 50 多个不同的 IP 地址访问我的网站超过 14,000 次。
抓取有正当理由,例如 SEO 研究或数据收集。 但也有一些内容盗版者会复制、窃取和重新发布您的内容。
但要区分两者并不容易。
漏洞扫描器
这是另一种形式的机器人流量,有时是好的,但大多数时候是坏的。
Web 安全公司自然且有益地扫描可以修补和修复的软件、插件和主题漏洞。
但也有黑客正在寻找相同的漏洞来访问和控制网站。
同样,要区分好人和坏人并不容易。
在大多数情况下,最好的方法是让 Cloudflare 和 Wordfence 来管理这个问题。 但有时我必须添加一个手动块才能确定。
好机器人和坏机器人
Google 和 Bing 等搜索引擎使用机器人来检查您的网站。 没有这些,您的网站将永远没有机会被编入索引和您的网页排名搜索。
您希望您的网站和博客帖子在 Google 和 Bing 上排名,所以是的,这些都是非常好的机器人。
其他优秀的机器人可以帮助您分析流量。 这些可能包括 Ahrefs、Semrush 和 Ubersuggest 等。
但是,是的,也有像黑客和垃圾邮件发送者这样的坏机器人,它们并没有把您的最大利益放在心上。
学习如何区分并不总是那么容易。 但过度阻止机器人往往弊大于利。
同样,您所能做的就是监视、检查,然后选择要阻止或挑战的对象。
我使用一些免费的在线工具来帮助我检查。
一种是滥用IPDB。 您可以检查任何 IP 地址,看看它是否被报告为滥用。
另一个是 Scamalytics。 使用此应用程序,您可以检查 IP 地址的欺诈分数。
结论
您无法阻止网站或博客上的垃圾邮件和不良机器人流量。
您所能做的就是监控它,然后尽可能地管理它。
但是,如果您发现大约 65% 的站点流量是自动机器人,请不要感到惊讶。
Imperva 的最新报告证实,不良机器人程序活动每年都在增加。
所有站点所有者可以做的,也应该做的,就是学习如何尽可能有效地管理威胁。
相关阅读: Cloudflare Cache Everything 将 WordPress TTFB 提高 90%