template design by http://www.20shx.com/
时间:2014-01-29 发布人:SHX 浏览次数:3742 评论:0
RSS源的抓取:
很多的大型网站都提供RSS源,就是把自己的数据资源共享出来,这样很多小型的网站就能第一时间获取到最新的新闻资源。那么这里我就来说说如何吧XML文件获取到并且分离出来。
这里提供一个RSS获取分离函数
function Rss($url){ //RSS源地址列表数组 //$url = "http://news.baidu.com/n?cmd=1&class=civilnews&tn=rss"; $rssfeed = array($url); //设置编码为UTF-8 header('Content-Type:text/html;charset= UTF-8'); for($i=0;$i<sizeof($rssfeed);$i++){//分解开始 $buff = ""; $rss_str= array(); //打开rss地址,并读取,读取失败则中止 $fp = file_get_contents($rssfeed[$i]) or die("can not open $rssfeed"); $buff = $fp; //关闭文件打开 //建立一个 XML 解析器 $parser = xml_parser_create(); //xml_parser_set_option -- 为指定 XML 解析进行选项设置 xml_parser_set_option($parser,XML_OPTION_SKIP_WHITE,1); //xml_parse_into_struct -- 将 XML 数据解析到数组$values中 xml_parse_into_struct($parser,$buff,$values,$idx); //xml_parser_free -- 释放指定的 XML 解析器 xml_parser_free($parser); foreach ($values as $val){ $tag = $val["tag"]; $type = $val["type"]; $value = $val["value"]; //标签统一转为小写 $tag = strtolower($tag); if ($tag == "item" && $type == "open"){ $is_item = 1; }else if ($tag == "item" && $type == "close"){ //构造输出字符串 //$title = mb_convert_encoding($title,"gb2312","UTF-8"); //$link = mb_convert_encoding($link,"gb2312","UTF-8"); $rss_str[] = "<a href='".$link."' title='".$title."' target=_blank>".$title."</a>"; $is_item = 0; } //仅读取item标签中的内容 if($is_item==1){ if ($tag == "title") {$title = $value;} if ($tag == "link") {$link = $value;} } } //输出结果 // var_dump ($rss_str); } return $rss_str; }
获取地址可以是多个
$Rssurl = array( "http://news.163.com/special/00011K6L/rss_newstop.xml", "http://news.163.com/special/00011K6L/rss_war.xml", "http://sports.163.com/special/00051K7F/rss_sportszh.xml", "http://ent.163.com/special/00031K7Q/rss_toutiao.xml");
最后记得获取后可能中文乱码,需要转换一下
$new_new = mb_convert_encoding($new[$i],"UTF-8","UTF-8");
如果你能的话,去做小偷程序吧。
上一篇:彩票,股票的api的获取下一篇:PHP在线ZIP解压程序