不知道大家是否知道爬虫在日志里留下的记录有些是假象
,可能还有很多看到这句话都还觉得不可思议
,会觉得
搜索引擎爬虫还有假的?
但是在实际当中我们不得不承认有那么些爬虫是伪装的,那么我们怎么来辨别爬虫在是真是假,这正是今天笔者要跟大家分享的内容
。
今天主要跟大家分享下我们常接触的
搜索引擎:百度(Baiduspider/2.0)与google(Googlebot)
。
① 验证百度蜘蛛(Baiduspider/2.0)的真伪
方法1——Linux环境下
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。
$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
方法2——windows环境下
开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)
或者开始->运行->nslookup 123.456.78.90
查看name信息,未标识为Baiduspider即为冒充。
验证谷歌爬虫(Googlebot/)
您可以验证实际访问您
服务器的漫游器是否是 Googlebot,只要使用反向 DNS 查找,验证该名称是否在 googlebot.com 域名中,然后使用该 Googlebot 名称执行正向 DNS 查找就可以了。 如果您担心垃圾邮件发送者或其他捣乱者(虽然声称是 Googlebot)访问您的网站,那么此验证会很有用。
例如: > host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer
crawl-66-249-66-1.googlebot.com.
> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Google 不会张贴供网站管理员添加到白名单的公共 IP 地址列表。 这是因为这些 IP 地址的范围可能发生变化,从而导致对这些地址进行硬编码的任何网站管理员遇到问题。 确定访问来自 Googlebot 的最好办法是使用 User-agent (Googlebot)。
以上就是今天要和大家分享的如何还辨别爬虫在iis日志里留下的真伪痕迹,大家学会了吗?
黑客防线网安seo还是那句话,
seo是实践才出真理的,所以大家动动手吧。