热门文章 | 热门软件| 热门源码 | 热门电影 | 知识库 | 联系我们
软件 源码 教程 影视 健康 招聘
  HTML | JavaScript | ASP | PHP | JSP | NET | VB | VC | VF | Windows | Linux | Mysql | Mssql | Oracle | Struts 
当前位置: 创世纪计算机资源网 -> 文章频道 ->asp 
站内搜索:
网站静态页面生成及网站数据采集的攻防(3)
作者:翟振恺 来源:不详 整理日期:2007-4-18

  和start相对应的就是需要处理的数据的唯一的结束标记

  body=mid(wstr,start,over-start)

  设置显示页面的范围

  -----------------翟振恺(小琦)

  End Function

  调用方法:body(被采集的页面的内容,开始标记,结束标记)

  2、用正则获取需要的数据

  CODE:[Copy to clipboard]Function body(wstr,start,over)

  -----------------翟振恺(小琦)

  Set xiaoqi = New Regexp设置配置对象

  xiaoqi.IgnoreCase = True忽略大小写

  xiaoqi.Global = True设置为全文搜索

  xiaoqi.Pattern = "”&start&“.+?”&over&“"正则表达式

  Set Matches =xiaoqi.Execute(wstr)开始执行配置

  set xiaoqi=nothing

  body=""

  For Each Match in Matches

  body=body&Match.Value 循环匹配

  Next

  -----------------翟振恺(小琦)

  End Function

  调用方法:body(被采集的页面的内容,开始标记,结束标记)

  采集程序祥细思路:

  1、取得网站的分页列表页的每页地址

  目前绝大部分动态网站的分页地址都有规则,如:

  动态页

  第一页:index.asp?page=1

  第二页:index.asp?page=2

  第三页:index.asp?page=3

  .....

  静态页

  第一页:page_1.htm

  第二页:page_2.htm

  第三页:page_3.htm

  .....

  取得网站的分页列表页的每页地址,只需要用变量替代每页地址的变化的字符即可如:page_<%="&page&"%>.htm

  2、获取被采集网站的分页列表页内容

  3、从分页列表代码中提取被采集的内容页面的URL连接地址

  绝大部分分页页面里的内容页连接也有固定规则,如:

  <a href="url1">连接1</a> <br>
      <a href="url2">连接2</a> <br>
      <a href="url3">连接3</a> <br>

  用以下代码就可以获得一个URL连接集合

  CODE:[Copy to clipboard]-----------------翟振恺(小琦)

  Set xiaoqi = New Regexp

  xiaoqi.IgnoreCase = True

  xiaoqi.Global = True

  xiaoqi.Pattern = ””“.+?”““

  Set Matches =xiaoqi.Execute(页面列表内容)

  set xiaoqi=nothing

  url=""

  For Each Match in Matches

  url=url&Match.Value

  Next

  -----------------翟振恺(小琦)

  4、取得被采集的内容页面内容,根据”提取标记“从被采集的内容页面分别截取要取得的数据

  因为是动态生成的页面,大多数内容页面内都有相同的html标记,们可以根据这些有规则的标记提取需要的各个部分的内容。

  如:

  每个页面都有网页标题,用上面写的MID截取函数就可以获得之间的值,也可以用正则表达式来获得。

  例:body("","")

  介绍完采集器的祥细原理后,就开始说一下防采集的策略。

  目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:

[1]  [2]  [3]  [4]  
相关文章