我们在运营网站的时候肯定是希望查看我们当前的网站的运行状态,内容是不是有被搜索引擎抓取。在这个过程中我们可以分析到爬虫的行为,我们可以通过一些插件工具实现。但是如果我们不希望用复杂的插件完成这些功能也可以用到这个简单的脚本办法,在这里麦子有看到这个可以快速有效的实现获取WordPress适合用到的蜘蛛抓取记录脚本。
![图片[1]-简单有效的实现WordPress获取搜索引擎蜘蛛抓取记录-WordPress建站笔记](https://cos.cnwper.com/2021/12/robotslogs.jpg)
function get_naps_bot(){
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}
if (strpos($useragent, 'msnbot') !== false){
return 'MSNbot';
}
if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}
if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}
if (strpos($useragent, 'sohu-search') !== false){
return 'Sohubot';
}
if (strpos($useragent, 'lycos') !== false){
return 'Lycos';
}
if (strpos($useragent, 'robozilla') !== false){
return 'Robozilla';
}
return false;
}
function nowtime(){
date_default_timezone_set('Asia/Shanghai');
$date=date("Y-m-d.G:i:s");
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotslogs.txt";
$time=nowtime();
$data=fopen($file,"a");
$PR="$_SERVER[REQUEST_URI]";
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n page:$PR\r\n");
fclose($data);
}
我们将代码插入到当前的主题 Functions.php 文件中。然后我们需要在网站根目录创建一个文件:
robotslogs.txt
且需要给予写入权限。
这样,我们可以通过这个TXT文本定期检查是不是有蜘蛛爬行记录。我们还可以利用这个日志文件进行可视化数据展现,这个需要用到数据调取方式。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END