你的位置:LAMP之窗 >> 资讯 >> PHP >> 详细内容 在线投稿

php抓取各大搜索引擎搜录量

热度39票  浏览32次 【共2条评论】【我要评论 时间:2010年4月01日 13:08
本文展示的是php抓取各大搜索引擎搜录量的demo,其中google增加验证机制,蘑菇在此提出一个思路,抓取前先接获gogole的cookie,然后带着cookie去抓,晚些时候蘑菇会公布一下代码

代码请注意抓取页面的字符集问题,蘑菇展示的均为utf-8的编码。

//过滤html代码
function removehtml($str){
    return preg_replace("/<[^>]*>/","",$str);
}

//格式化url
function format_url($url){
    $url = trim($url);
    $url = str_replace('http://','',$url);
    if(substr($url,0,strlen('www.'))=='www.')
        $url = substr($url,strlen('www.'));
    return $url;
}

function baidu($url) {
        $url = 'http://www.baidu.com/s?wd=site:'.$url;
        $content = file_get_contents($url);
        $content = iconv('GBK','UTF-8',$content);
        preg_match ('/百度一下,找到相关网页(.*?)篇/', $content, $out);
        $num = $out[1];
        return $num?$num:0;
}
function google($url) {
        $url = 'http://www.google.com.hk/search?hl=en&q=site:'.$url;
        $content = file_get_contents($url);
        preg_match ('/about(.*?)from/', $content, $out);
        $num = removehtml($out[1]);
        return $num?$num:0;
}
function soso($url) {
        $url = 'http://www.soso.com/q?pid=s.idx&w=site:'.$url;
        $content = file_get_contents($url);
        $content = iconv('GBK','UTF-8',$content);
        preg_match ('/搜索到约(.*?)项结果/', $content, $out);
        $num = $out[1];
        return $num?$num:0;
}
function sogou($url) {
        $url = 'http://www.sogou.com/web?query=site:'.$url;
        $content = file_get_contents($url);
        $content = iconv('GBK','UTF-8',$content);
        preg_match ('/找到(.*?)个网页/', $content, $out);
        $num = $out[1];
        return $num?$num:0;
}
function bing($url) {
        $url = 'http://cn.bing.com/search?q=site:'.$url;
        $content = file_get_contents($url);
        preg_match ('/共(.*?) 条/', $content, $out);
        $num = $out[1];
        return $num?$num:0;
}

function yahoo($url) {
        $url = 'http://search.yahoo.com/search?fr=siteexplorer&p=site:'.$url;
        $content = file_get_contents($url);
        preg_match ('/\<strong id\=\"resultCount\"\>([\s\S]*?)\<\/strong\>/', $body, $out);
        $num = $out[1];
        return $num?$num:0;
}

function youdao($url) {
        $url = 'http://www.youdao.com/search?q=site:'.$url;
        $content = file_get_contents($url);
        preg_match ('/共约(.*?)条结果/', $content, $out);
        $num = $out[1];
        return $num?$num:0;
}

$url = format_url('http://www.365coding.com');
echo baidu($url);
echo google($url);
echo soso($url);
echo sogou($url);
echo bing($url);
echo yahoo($url);
echo youdao($url);
?>
TAG: PHP 搜索引擎
顶:2 踩:2
对本文中的事件或人物打分:
当前平均分:0.27 (11次打分)
对本篇资讯内容的质量打分:
当前平均分:-1.73 (11次打分)
【已经有13人表态】
上一篇 下一篇
LAMP之窗APNIC网友 [暮色幽灵] ip: 118.67.*.*
2010-05-17 11:07:27
不错,很受用!
LAMP之窗中国网友 [天下有雪] ip: 124.126.*.*
2010-06-12 12:49:24
晚些时候是啥时候公布呀
发表评论

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有2位网友发表了看法】
       

网络资源