软件开发培训班 >> 编程开发 >> PHP

PHP统计nginx访问日志中的搜索引擎抓取404链接页面路径

　　本文标签：PHP,统计搜索引擎404链接

我在服务器上有每天切割nginx日志的习惯，所以针对每天各大搜索引擎来访，总能记录一些404页面信息，传统上我只是偶尔分析下日志，但是对于很多日志信息的朋友，人工来筛选可能不是一件容易的事情，这不我个人自己慢慢研究了一点点，针对谷歌、百度、搜搜、360搜索、宜搜、搜狗、必应等搜索引擎的404访问生成为一个txt文本文件，直接上代码test.php 。

复制代码代码如下:

<?php

//访问test.php?s=google

$domain=http://www.jb51.net;

$spiders=array(baidu=>Baiduspider,360=>360Spider,

google=>Googlebot,soso=>Sosospider,sogou=>

Sogou web spider,easou=>EasouSpider,bing=>bingbot);

$path=/home/nginx/logs/.date(Y/m/).(date(d)-1)./access_www.txt;

$s=$_GET[s];

if(!array_key_exists($s,$spiders)) die();

$spider=$spiders[$s];

$file=$s._.date(ym).(date(d)-1)..txt;

if(!file_exists($file)){

    $in=file_get_contents($path);

    $pattern=/GET (.*) HTTP\/1.1" 404.*.$spider./;

    preg_match_all ( $pattern , $in , $matches );

    $out=;

    foreach($matches[1] as $k=>$v){

        $out.=$domain.$v."\r\n";

    }

    file_put_contents($file,$out);

}

$url=$domain./silian/.$file;

echo $url;

好就这样了。没有什么高深的技术，只有动手写的过程。

名词全解! 5大要素助你快速了解功放	为什么小姐姐都喜欢大光圈拍照
揭秘封杀华为、强抢TikTok的幕后黑手——美国CFIUS	win7怎减少电脑内存占用？

技术文章快速查找

PHP入门教程之面向对象的特性分析(继承,多态,接口,抽象类,抽象方法等)

php自定文件保存session的方法

Codeigniter的一些优秀特性总结

PHP网站安装程序制作的原理、步骤、注意事项和示例代码

Laravel5.1 框架关联模型之后操作实例分析

php 远程包含文件漏洞分析

CodeIgniter针对lighttpd服务器URL重写的方法

升级PHP5的理由：PHP4和PHP5性能对比

相关下载

在线教程导航

软件应用
·Windows8	·Windows7	·Word
·Excel	·PPT	·WPS
Web开发
·ASP	·JavaScript	·DIV+CSS
·JSP	·VbScript	·XML
·PHP
开发语言
·VB	·VC	·ASP.NET
·Java	·C++	·Delphi
数据库开发
·MySQL	·MsSQL	·Access
·Oracle	·DB2
手机系统
·Android	·iOS	·WindowsPhone
网站设计
·Flash	·Dreamweaver	·Fireworks
平面设计
·Photoshop	·CorelDraw	·AutoCAD
·3DsMAX	·Illustrator
网络技术
·网站运营	·网络安全	·网络搭建