template design by http://www.20shx.com/
时间:2014-01-29 发布人:SHX 浏览次数:3855 评论:0
RSS源的抓取:
很多的大型网站都提供RSS源,就是把自己的数据资源共享出来,这样很多小型的网站就能第一时间获取到最新的新闻资源。那么这里我就来说说如何吧XML文件获取到并且分离出来。
这里提供一个RSS获取分离函数
function Rss($url){
//RSS源地址列表数组
//$url = "http://news.baidu.com/n?cmd=1&class=civilnews&tn=rss";
$rssfeed = array($url);
//设置编码为UTF-8 header('Content-Type:text/html;charset= UTF-8');
for($i=0;$i<sizeof($rssfeed);$i++){//分解开始
$buff = "";
$rss_str= array();
//打开rss地址,并读取,读取失败则中止
$fp = file_get_contents($rssfeed[$i]) or die("can not open $rssfeed");
$buff = $fp;
//关闭文件打开
//建立一个 XML 解析器
$parser = xml_parser_create();
//xml_parser_set_option -- 为指定 XML 解析进行选项设置
xml_parser_set_option($parser,XML_OPTION_SKIP_WHITE,1);
//xml_parse_into_struct -- 将 XML 数据解析到数组$values中
xml_parse_into_struct($parser,$buff,$values,$idx);
//xml_parser_free -- 释放指定的 XML 解析器
xml_parser_free($parser);
foreach ($values as $val){
$tag = $val["tag"];
$type = $val["type"];
$value = $val["value"];
//标签统一转为小写
$tag = strtolower($tag);
if ($tag == "item" && $type == "open"){
$is_item = 1;
}else if ($tag == "item" && $type == "close"){
//构造输出字符串
//$title = mb_convert_encoding($title,"gb2312","UTF-8");
//$link = mb_convert_encoding($link,"gb2312","UTF-8");
$rss_str[] = "<a href='".$link."' title='".$title."' target=_blank>".$title."</a>";
$is_item = 0;
}
//仅读取item标签中的内容
if($is_item==1){
if ($tag == "title") {$title = $value;}
if ($tag == "link") {$link = $value;}
}
}
//输出结果
// var_dump ($rss_str);
}
return $rss_str;
}获取地址可以是多个
$Rssurl = array( "http://news.163.com/special/00011K6L/rss_newstop.xml", "http://news.163.com/special/00011K6L/rss_war.xml", "http://sports.163.com/special/00051K7F/rss_sportszh.xml", "http://ent.163.com/special/00031K7Q/rss_toutiao.xml");
最后记得获取后可能中文乱码,需要转换一下
$new_new = mb_convert_encoding($new[$i],"UTF-8","UTF-8");
如果你能的话,去做小偷程序吧。
上一篇:彩票,股票的api的获取下一篇:PHP在线ZIP解压程序