当前位置:首页 > 技术教程 > 建站经验 > 正文内容

【网站防采集】通过User Agent屏蔽Web爬虫防采集

爱一流网3年前 (2021-09-21)建站经验261

识别User Agent屏蔽一些Web爬虫防采集

自从做网站以来,大量自动抓取我们内容的爬虫一直是个问题,防范采集是个长期任务,可以通过两种方法防采集

1、Apache中设置屏蔽IP地址和URL网址来禁止采集,

2、还可以识别User Agent来辨别和屏蔽一些采集者

在Apache中设置的代码例子如下:

RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$

RewriteRule .* - [F,L]

屏蔽User Agent为空的代码:

RewriteCond %{HTTP_USER_AGENT} ^$

RewriteRule .* - [F]

屏蔽Referer和User Agent都为空的代码:

RewriteCond %{HTTP_REFERER} ^$ [NC]

RewriteCond %{HTTP_USER_AGENT} ^$ [NC]

RewriteRule .* - [F] 

下面把一些可以屏蔽的常见采集软件或者机器爬虫的User Agent的特征关键词列一下供参考:

    User-Agent

    DTS Agent

    HttpClient

    Owlin

    Kazehakase

    Creative AutoUpdate

    HTTrack

    YisouSpider

    baiduboxapp

    Python-urllib

    python-requests

    SemrushBot

    SearchmetricsBot

    MegaIndex

    Scrapy

    EMail Exractor

    007ac9

    ltx71

 其它也可以考虑屏蔽的:

    Mail.RU_Bot:http://go.mail.ru/help/robots

    Feedly

    ZumBot

    Pcore-HTTP

    Daum

    your-server

    Mobile/12A4345d

    PhantomJS/2.1.1

    archive.org_bot

    AcooBrowser

    Go-http-client

    Jakarta Commons-HttpClient

    Apache-HttpClient

    BDCbot

    ECCP

    Nutch

    cr4nk

    MJ12bot

    MOT-MPx220

    Y!OASIS/TEST

    libwww-perl

  一般不要屏蔽的主流搜索引擎特征:

    Google

    Baidu

    Yahoo

    Slurp

    yandex

    YandexBot

    MSN

  一些常见浏览器或者通用代码也不要轻易屏蔽:

    FireFox

    Apple

    PC

    Chrome

    Microsoft

    Android

    Mail

    Windows

    Mozilla

    Safar

    Macintosh


扫描二维码推送至手机访问。

版权声明:本文由爱一流网发布,如需转载请注明出处。

免责声明:本站所有资源搜集整理于互联网或者网友提供,仅供学习与交流使用,如果不小心侵犯到你的权益,请及时联系我们删除该资源。

本文链接:https://aiyiliu.com/post/13.html

分享给朋友: