检查UserAgent ----太多爬虫不会标明自己
检查IP访问----NAT大量使用,爬虫常换ip使得难以非常准确(这一条在访问量大的情况下还是统计上较准确的)
使用JS-----有的爬虫是支持JS的哦
使用Cookie---爬虫支持Cookie的也不少了
使用gzip----某知名blog的说法,。。gzip都不支持的爬虫太弱了
爬虫越来越像浏览器的今天,虽能告诉有什么好办法!
尽管自己是开发爬虫的单也被爬虫带来的日志统计误差所骚扰

标签: none

添加新评论