研究seo的土坷垃
土坷垃的blog 写点自己身边的故事 写写自己工作遇到的事情 写写做SEO发现的问题

SEO函数专为采集搜索而写(采集百度)

12月 4th, 2007 . by 土坷垃

//根据标题获得百度热门相关关键字,返回字符串
function baiduKeyword($title,$num=5,$charset=”UTF-8″){

$title=iconv($charset, “GB2312″, $title);
$w=file_get_contents(’http://d.baidu.com/rs.php?q=’.urlencode($title).’&tn=baidu’);
//die($w);
//获得列表部分
preg_match_all(”|

(.*)

|isU”,$w,$con);
$list=$con[1][0];
//获得具体内容
preg_match_all(”|

|isU”,$list,$content);
//合并成数组,被搜索次数做为键值
$c=array_combine($content[4],$content[3]);
//排序
krsort($c);
//取前N条
$r=array_slice($c, 0, $num);
//转换成字符串
$result=implode(”,”, $r);
$result=iconv(”GB2312″, $charset,$result);
return $result;
}

//通过DZ获取文章关键字,输入标题和内容 即可返回5个关键字数组
function getTags($title,$content){

$subjectenc = rawurlencode(strip_tags($title));
$messageenc = rawurlencode(strip_tags(preg_replace(”/\[.+?\]/U”, ”,$content)));
$subjectenc =substr($subjectenc,0,60);
$messageenc=substr($messageenc,0,1200);
$data = @implode(”, file(”http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=utf-8&ocs=utf-8″));

$kws = array();
if($data) {
$parser = xml_parser_create();
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1);
xml_parse_into_struct($parser, $data, $values, $index);
xml_parser_free($parser);
foreach($values as $valuearray) {
if($valuearray['tag'] == ‘kw’ || $valuearray['tag'] == ‘ekw’) {
$kw =trim($valuearray['value']);
$kws[] =$kw ;

}
}
}
return $kws;
}

来源PHPX(喜悦村)作者:songlv
        最近出了很多采集百度的。有的是直接输入关键词采集百度前几页搜索结果,然后过滤掉相关信息。当然了也有采集google等其他搜索引擎的。殊不知这是很危险的做法,你简直就是不拿自己的服务器IP当会事啊。

       前几年这种方法很爽,当时搜索也不懂,更没有什么人去举报。后来人家发现了,这样的站没一个幸存下来,最近这样的站开始死灰复燃了,又有更多的站会收到牵连了,希望主会保佑他们。
       如果google不改版代码,恐怕将会加剧这样的站诞生,蔓延,直到无法控制 ……

wp的编辑器输出部分PHP代码会执行。我郁闷。还是打包吧,想研究的当下来自己看。

caiji.txt


Leave a Reply

Name

Mail (never published)

Website