【网站防采集】通过User Agent屏蔽Web爬虫防采集

爱一流网5年前 (2021-09-21)建站经验584

识别User Agent屏蔽一些Web爬虫防采集

自从做网站以来，大量自动抓取我们内容的爬虫一直是个问题，防范采集是个长期任务，可以通过两种方法防采集

1、Apache中设置屏蔽IP地址和URL网址来禁止采集，

2、还可以识别User Agent来辨别和屏蔽一些采集者

在Apache中设置的代码例子如下：

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

屏蔽User Agent为空的代码：

RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

屏蔽Referer和User Agent都为空的代码：

RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F]

下面把一些可以屏蔽的常见采集软件或者机器爬虫的User Agent的特征关键词列一下供参考：

User-Agent

DTS Agent

HttpClient

Owlin

Kazehakase

Creative AutoUpdate

HTTrack

YisouSpider

baiduboxapp

Python-urllib

python-requests

SemrushBot

SearchmetricsBot

MegaIndex

Scrapy

EMail Exractor

007ac9

ltx71

　其它也可以考虑屏蔽的：

Mail.RU_Bot：http://go.mail.ru/help/robots

Feedly

ZumBot

Pcore-HTTP

Daum

your-server

Mobile/12A4345d

PhantomJS/2.1.1

archive.org_bot

AcooBrowser

Go-http-client

Jakarta Commons-HttpClient

Apache-HttpClient

BDCbot

ECCP

Nutch

cr4nk

MJ12bot

MOT-MPx220

Y!OASIS/TEST

libwww-perl

　　一般不要屏蔽的主流搜索引擎特征：

Google

Baidu

Yahoo

Slurp

yandex

YandexBot

MSN

　　一些常见浏览器或者通用代码也不要轻易屏蔽：

FireFox

Apple

Chrome

Microsoft

Android

Mail

Windows

Mozilla

Safar

Macintosh

扫描二维码推送至手机访问。

免责声明：本站所有资源搜集整理于互联网或者网友提供，仅供学习与交流使用，如果不小心侵犯到你的权益，请及时联系我们删除该资源。

本文链接：https://aiyiliu.com/post/13.html

标签: 网站防采集通过User Agent屏蔽Web爬虫防采集

分享给朋友：

返回列表

上一篇：网站如何禁止DotBot、AhrefsBot、SemrushBot、PetalBot等垃圾爬虫的抓取

下一篇：浅谈关于搜索引擎爬虫以及常见的seo蜘蛛

Notepad++光标变横线解决方法5年前 (2021-10-14)

常用源码资源网站整理5年前 (2021-11-02)

收集到的恶意扫描ip5年前 (2021-11-07)

用notepad++正则表达式去除重复行5年前 (2021-11-07)

屏蔽恶意网站压缩包扫描ip5年前 (2021-11-13)

nginx屏蔽ip或ip段的写法4年前 (2022-01-21)

【网站防采集】通过User Agent屏蔽Web爬虫防采集

相关文章

Copyright © 2024 爱一流网版权所有
豫ICP备2021026617号-3 豫公网安备：41172602000209

Powered By Z-BlogPHP. Theme by TOYEAN.

【网站防采集】通过User Agent屏蔽Web爬虫防采集

相关文章

Copyright © 2024 爱一流网 版权所有 豫ICP备2021026617号-3 豫公网安备：41172602000209

Powered By Z-BlogPHP. Theme by TOYEAN.

Copyright © 2024 爱一流网版权所有
豫ICP备2021026617号-3 豫公网安备：41172602000209