软件开发培训班 >> 编程开发 >> PHP

用php解析html的实现代码

　　本文标签：html

最近想用php写一个爬虫，就需要解析html，在sourceforge上找到一个项目叫做PHP Simple HTML DOM Parser，它可以以类似jQuery的方式通过css选择器来返回指定的DOM元素，功能十分强大。
首先要在程序的开始引入simple_html_dom.php这个文件

复制代码代码如下:

include_once(simple_html_dom.php);

PHP Simple HTML DOM Parser提供了3种方式来创建DOM对象

复制代码代码如下:

 
// Create a DOM object from a string 
$html = str_get_html(<html><body>Hello!</body></html>); 
// Create a DOM object from a URL 
$html = file_get_html(http://www.google.com/); 
// Create a DOM object from a HTML file 
$html = file_get_html(test.htm); 

得到DOM对象后就可以进行各种操作了

复制代码代码如下:

 
// Find all anchors, returns a array of element objects 
$ret = $html->find(a); 
// Find (N)th anchor, returns element object or null if not found (zero based) 
$ret = $html->find(a, 0); 
// Find lastest anchor, returns element object or null if not found (zero based) 
$ret = $html->find(a, -1); 
// Find all <div> with the id attribute 
$ret = $html->find(div[id]); 
// Find all <div> which attribute id=foo 
$ret = $html->find(div[id=foo]); 

这里可以使用各种css选择器，就像在jQuery中进行DOM操作一样，非常方便。此外，还有两个特殊的属性可以得到文本和注释的内容

复制代码代码如下:

 
// Find all text blocks 
$es = $html->find(text); 
// Find all comment (<!--...-->) blocks 
$es = $html->find(comment); 

当然，还是类似于jQuery，PHP Simple HTML DOM Parser也支持链式操作，以及各种访问DOM元素的简单方法

复制代码代码如下:

 
// Example 
echo $html->find("#div1", 0)->children(1)->children(1)->children(2)->id; 
// or 
echo $html->getElementById("div1")->childNodes(1)->childNodes(1)->childNodes(2)->getAttribute(id); 

技术文章快速查找

解析PHP强制转换类型及远程管理插件的安全隐患

php array_push()数组函数:将一个或多个单元压入数组的末尾（入栈）

Yii2配置Nginx伪静态的方法

相关下载

在线教程导航

软件应用
·Windows8	·Windows7	·Word
·Excel	·PPT	·WPS
Web开发
·ASP	·JavaScript	·DIV+CSS
·JSP	·VbScript	·XML
·PHP
开发语言
·VB	·VC	·ASP.NET
·Java	·C++	·Delphi
数据库开发
·MySQL	·MsSQL	·Access
·Oracle	·DB2
手机系统
·Android	·iOS	·WindowsPhone
网站设计
·Flash	·Dreamweaver	·Fireworks
平面设计
·Photoshop	·CorelDraw	·AutoCAD
·3DsMAX	·Illustrator
网络技术
·网站运营	·网络安全	·网络搭建