香港高速VIP云机房火爆上线啦!无需备案,开通即用!配套《巅云自助建站系统3.0》将带给您飞一般的可视化拖拽建站体验,欢迎免费体验。

建站专题

基于curl数据采集之正则处理函数get_matches的使用

一佰互联网站开发设计(www.yinxi.net) 发布日期 2019-04-30 09:21:34 浏览数: 30

根据前两篇的博文:

基于curl数据采集之单页面采集函数get_html的使用

基于curl数据采集之单页面并行采集函数get_htmls的使用

已经可以得到了我们需要的html文件,现在需要处理得到的文件获取到我们需要的采集的数据。

对于html文档的解析,没有像XML那样的解析类,因为HTML文档有很多不成对的标签,很不严格。这个时候就需要采用其他的一些辅助类了,simplehtmldom是一个类似于JQuery方式操作HTML文档的解析类。可以很方便的得到想要的数据,可惜速度慢。这里不是我们这里讨论的重点,我主要使用正则来匹配我所需要的采集的数据,可以很快速的得到我需要采集的信息。

考虑到get_html可以判断返回的数据,但是get_htmls没有办法判断,为了方便调式和调用写了如下两个函数:
复制代码 代码如下:
function get_matches($pattern,$html,$err_msg,$multi=false,$flags=0,$offset=0){
     if(!$multi){
         if(!preg_match($pattern,$html,$matches,$flags,$offset)){
             echo $err_msg."! 错误信息: ".get_preg_err_msg()."";
             return false;
         }
     }else{
         if(!preg_match_all($pattern,$html,$matches,$flags,$offset)){
             echo $err_msg."! 错误信息: ".get_preg_err_msg()."";
             return false;
         }
     }
     return $matches;
 }
 function get_preg_err_msg(){
     $error_code = preg_last_error();
     switch($error_code){
         case PREG_NO_ERROR :
             $err_msg = "PREG_NO_ERROR";
             break;
         case PREG_INTERNAL_ERROR:
             $err_msg = "PREG_INTERNAL_ERROR";
             break;
         case PREG_BACKTRACK_LIMIT_ERROR:
             $err_msg = "PREG_BACKTRACK_LIMIT_ERROR";
             break;
         case PREG_RECURSION_LIMIT_ERROR:
             $err_msg = "PREG_RECURSION_LIMIT_ERROR";
             break;
         case PREG_BAD_UTF8_ERROR:
             $err_msg = "PREG_BAD_UTF8_ERROR";
             break;
         case PREG_BAD_UTF8_OFFSET_ERROR:
             $err_msg = "PREG_BAD_UTF8_OFFSET_ERROR";
             break;
         default:
             return "未知错误!";
     }
     return $err_msg.": ".$error_code;
 }

可以这样调用:
复制代码 代码如下:
$url = "http://www.baidu.com";
 $html = get_html($url);
 $matches = get_matches("!<a[^<]+</a>!",$html,"没有找到链接",true);
 if($matches){
     var_dump($matches);
 }

或者这样调用:
复制代码 代码如下:
$urls = array("http://www.baidu.com","http://www.hao123.com");
 $htmls = get_htmls($urls);
 foreach($htmls as $html){
     $matches = get_matches("!<a[^<]+</a>!",$html,"没有找到链接",true);
     if($matches){
         var_dump($matches);
     }
 }

就可以得到所需的信息,无论单页面采集还是多页面采集,最终PHP还是只能处理一个页面,由于使用get_matches了,可以对返回的值进行判断真假,得到正确的数据,由于使用正则的时候遇到了超过正则回溯的问题,增加get_preg_err_msg来提示正则信息。

由于采集数据的时候,经常是采集列表页,根据列表页得到的内容页链接再采集内容页,或者更多的层次,那么循环嵌套会很多,对于代码的控制会感觉力不从心。那我们是否可以把采集列表页的代码和采集内容页的代码,或者更多的层次的采集代码分离开,甚至循环都简化呢?

一佰互联是全国知名建站品牌服务商,我们有九年网站建设、网站制作、网页设计、php开发和域名注册及虚拟主机服务经验,提供的自助建站服务更是全国有名。近年来还整合团队优势自主开发了可视化多用户”巅云建站系统“3.0平台版,拖拽排版网站制作设计,轻松实现pc站、手机微网站、小程序、APP一体化全网营销网站建设 ,已成功的为全国上百家网络公司提供自助建站平台搭建服务。

相关新闻more

09
04月
除了专业过硬,高级设计师都得掌握的5个能力素

我们已经或多或少看过一些优秀作品,也知道了一些设计方法和技巧,了解到了一些相关的理论知识,自己也做过一些项目或者是练习,总体来说都掌握了一定... >>详情

07
04月
站在5G风口的UI设计师,靠什么技能起飞?

UI和设计这一行似乎越来越难混了:进要懂手绘,退要明交互,以往一个界面的事情,如今都不够了。上一屏到下一屏之间的变化,如果做不到转场动效的完... >>详情

19
04月
备案拍照仍需再议 个人站长日益艰难

网络实名是大势所趋早在今年2月,工信部就已向各地通信管理局等单位印发通知,要求进一步落实网站备案信息真实性核验工作。通知中涉及的备案核验试行... >>详情

20
04月
HTML5之SVG 2D入门1—SVG(可缩

位图与矢量图 以前,浏览器中显示的图形,例如jpeg、gif等,都是位图,这些图像格式是基于光栅的。在光栅图像中,图像文件定义了图像中每个像... >>详情

营业执照. cdn加速服务 备案系统认证 网络安全协会 我们的支付方式AAA认证
上海 北京 深圳 广州 天津 杭州 南京 武汉 成都 沈阳 大连 长沙 济南 青岛 苏州 福州 无锡 哈尔滨 宁波 重庆 大庆 厦门 西安 长春 珠海 郑州 海口 昆明 太原 石家庄 温州 合肥 乌鲁木齐 南宁 南通 合肥 兰州 呼和浩特 贵阳 烟台 秦皇岛 包头 唐山 银川 汕头 连云港 威海 西宁 湛江 北海 万州 涪陵 长寿 黔江 永川 丰都 忠县 江津 南川 开县 云阳 万盛 梁平 垫江 巫山 城口 建站宝盒 免费建站 门户网站建设 微信网站 手机网站 门户网站制作

7x24小时服务电话:18581389571 传真:023-85725751 免费建站交流群:236412099 139947842(自助建站交流) E-Mail:post@yinxi.net 网站投诉:
重庆楚捷科技有限公司 一佰互联©版权所有 自助建站(www.yinxi.net,Inc.) 2001-2020 All Rights Reserved 本站程序受法律保护,网站法律顾问:ITLAW-庄毅雄律师
中华人民共和国信息产业部网站备案号:渝ICP备12000592号