PHP-RSS源的抓取和使用

时间:2014-01-29  发布人:SHX  浏览次数:3743  评论:0

RSS源的抓取:

很多的大型网站都提供RSS源,就是把自己的数据资源共享出来,这样很多小型的网站就能第一时间获取到最新的新闻资源。那么这里我就来说说如何吧XML文件获取到并且分离出来。

这里提供一个RSS获取分离函数

function Rss($url){
    
    //RSS源地址列表数组
    //$url = "http://news.baidu.com/n?cmd=1&class=civilnews&tn=rss";
 
    $rssfeed = array($url);
    
    //设置编码为UTF-8 header('Content-Type:text/html;charset= UTF-8');
    
    for($i=0;$i<sizeof($rssfeed);$i++){//分解开始
    
    $buff = "";
    
    $rss_str= array();
    
    //打开rss地址,并读取,读取失败则中止
    
    $fp = file_get_contents($rssfeed[$i]) or die("can not open $rssfeed");
 
    $buff = $fp;
    
    //关闭文件打开
   
    
    //建立一个 XML 解析器
    
    $parser = xml_parser_create();
    
    //xml_parser_set_option -- 为指定 XML 解析进行选项设置
    
    xml_parser_set_option($parser,XML_OPTION_SKIP_WHITE,1);
    
    //xml_parse_into_struct -- 将 XML 数据解析到数组$values中
    
    xml_parse_into_struct($parser,$buff,$values,$idx);
    
    //xml_parser_free -- 释放指定的 XML 解析器
    
    xml_parser_free($parser);
    
    foreach ($values as $val){
    
    $tag = $val["tag"];
    
    $type = $val["type"];
    
    $value = $val["value"];
    
    //标签统一转为小写
    
    $tag = strtolower($tag);
    
    if ($tag == "item" && $type == "open"){
    
    $is_item = 1;
    
    }else if ($tag == "item" && $type == "close"){
    
    //构造输出字符串
    //$title = mb_convert_encoding($title,"gb2312","UTF-8");
    //$link = mb_convert_encoding($link,"gb2312","UTF-8");
    $rss_str[] = "<a href='".$link."' title='".$title."' target=_blank>".$title."</a>";
    
    $is_item = 0;
    
    }
    
    //仅读取item标签中的内容
    
    if($is_item==1){
    
    if ($tag == "title") {$title = $value;}
    
    if ($tag == "link") {$link = $value;}
    
    }
    
    }
    
    //输出结果
    // var_dump ($rss_str);
    
    }
   return $rss_str;
 }

获取地址可以是多个

$Rssurl = array(
"http://news.163.com/special/00011K6L/rss_newstop.xml",
"http://news.163.com/special/00011K6L/rss_war.xml",
"http://sports.163.com/special/00051K7F/rss_sportszh.xml",
"http://ent.163.com/special/00031K7Q/rss_toutiao.xml");

最后记得获取后可能中文乱码,需要转换一下

$new_new  = mb_convert_encoding($new[$i],"UTF-8","UTF-8");

如果你能的话,去做小偷程序吧。

返回

上一篇:彩票,股票的api的获取下一篇:PHP在线ZIP解压程序

我要评论

    loading
 

关闭

loading

回顶部