软件开发培训班 >> 编程开发 >> Delphi

Delphi实现网页采集

　　说到网页采集，通常大家认为到网上偷数据，而后把到收集到的数据挂到自己网上去。其实也可以将采集到的数据做为公司的参考，或把收集的数据跟自己公司的业务做对照等。

当前网页采集多为3P代码为多(3P即ASP、PHP 、JSP) 。用得最有代表的就动易科技公司BBS中新闻采集系统，和网上流传的新浪新闻采集系统等都是用ASP程序来使用，但速度从实际上来说不是很好。假如尝试用其它软件的多线程采集是否更快？答案是确定的。用DELPHI、VC、VB、JB都可以，PB 仿佛比较不好做。以下用DELPHI来解释采集网页数据。

　　 方便的新闻采集

送餐骑手撞伤路人谁来担责法院判饿了么赔偿27万元	视频相亲各种付费，婚恋交友App盯上老年人钱包？
人民网评：不要再为不良软件贡献流量，沦为被收割的“韭菜”了	美国窃听事件持续发酵四招教你防手机窃听

新闻采集是最方便的，惟独鉴别题目、副题、作者、出处、日期、新闻主体、分页就可以了。在采集之前确定要获得网页的内容，所以在DELPHI里加入idHTTP控件(在indy Clients面板)，而后用idHTTP1.GET 步骤获得网页的内容，申明如下：

function Get(AURL: string): string; overload;

AURL参数，是string类型，指定一个URL地址字符串。函数返回也是string类型，返回网页的HTML源文件。比方我们可以　　这样调用：

tmpStr:= idHTTP1.Get(‘http://www.163.com’);

调用顺利后，tmpstr变量里存储的便是网易主页的代码了。

从15到55英寸到底多大的显示器适合你？	吴京分享月瘦10斤减肥法:吃水煮鸡胸肉牛肉海鲜等
含7500个比特币硬盘当垃圾丢了 2.4亿美元就此灰飞烟灭	Win11乱改？或许这才是右键菜单的完美解决方案

接下来，讲一下数据的截取，这里，我定义了这么一个函数：

function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;

var

in_star,in_end:integer;

begin

饿了么点外卖折扣后比堂食贵？律师称属于价格欺诈	靠AI换脸拯救一部戏，可行吗？
生鲜电商是如何沦为“时代弃子”的？	怎么制作移动网站

in_star:=AnsiPos(strbegin,strsource)+length(strbegin);

in_end:=AnsiPos(strend,strsource);

result:=copy(strsource,in_sta,in_end-in_star);

end;

StrSource：string类型，示意HTML源文件。

StrBegin：string类型，示意截取开始的标记。

不露脸拍手也很美	拍极简花卉，照片高级又好看
只有刷机才能救安卓？央视点名APP权限滥用问题，MIUI12火上央视	强制升级这招走不通了！部分PC无缘Win11

StrEnd：string，示意截取完毕的标记。

函数返回字符串StrSource中从StrSource到StrBegin中间的一段文本。

比方：

strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);

运行后，strtmp的值为：’123’ 。

对于函数里用到的AnsiPos和copy，都是系统定义的，可以从delphi的协助文件里找到有关注明，我在这里也方便罗嗦一下：

function AnsiPos(const Substr, S: string): Integer

返回Substr在S中第一次浮现的位置。

function copy(strsource,in_sta,in_end-in_star): string;

返回字符串strsource中,从in_sta(整型数据)开始到in_end-in_star(整型数据) 完毕的字符串。

有了以上函数，我们就可以通过设置各种标记，来截取想要的文章内容了。在程序中，比较麻烦的是我们需求设置许多标记，要定位某一项内容，必须设置它的开始和完毕标记。比方要获得网页上的文章题目，必须事先查看网页代码，查看出文章题当前边和后边的一些特色代码，通过这些特色代码，来截取文章的题目。

下面我们来实际演示一下，假如要采集的文章地址为http://www.xxx.com/test.htm

代码为：

<html>

<head>

</head>

<body>

文章题目

</table>

这里是文章内容诠释。

</body>

</html>

第一步，我们用StrSource:= idHTTP1.Get(‘http://www.xxx.com/test.htm ’);将网页代码保留在strsource变量中。

而后定义strTitle、strAuthor、strCopyFrom、strContent：

strTitle:= GetStr(StrSource,’ ’,’ ’):

strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):

strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):

strContent:= GetStr(StrSource,’ ,’ ’):

这样，就能把文章的题目、副题、作者、出处、日期、内容和分页分别存储在以上变量中。

第二步，用循环的步骤，打开下一页，并获得内容，加到strContent变量中。

StrSource:= idHTTP1.Get(‘new_ne.asp’);

strContent:= strContent +GetStr(StrSource,’ ,’ ’):

而后再推断有没有下一页，假如还有就接着获得下一页的内容。

这样就实现了一个方便的截取过程。从以上的程序代码可以看到，我们使用的截取步骤都是找截取内容的头部和尾部的，假如遇到这个头部和尾部有多个怎么办？仿佛没步骤，只会找到第一个，所以在找之前应该验证一下是否惟独一处有这个截取的内容的前后部。

技术文章快速查找

用Delphi开发简单的WebMail程序

Delphi用拼音首字符序列实现检索功能

在DBGrid中实现Copy、Paste功能

相关下载

在线教程导航

软件应用
·Windows8	·Windows7	·Word
·Excel	·PPT	·WPS
Web开发
·ASP	·JavaScript	·DIV+CSS
·JSP	·VbScript	·XML
·PHP
开发语言
·VB	·VC	·ASP.NET
·Java	·C++	·Delphi
数据库开发
·MySQL	·MsSQL	·Access
·Oracle	·DB2
手机系统
·Android	·iOS	·WindowsPhone
网站设计
·Flash	·Dreamweaver	·Fireworks
平面设计
·Photoshop	·CorelDraw	·AutoCAD
·3DsMAX	·Illustrator
网络技术
·网站运营	·网络安全	·网络搭建