策略一为非实时的静态化策略, 然而它不会很好地适用于需要经常更新数据且对搜索引擎实时性要求较高的大型门户网站。例如大型的新闻网站, 网站经常会发布新的文章或者是公告,并且需要搜索引擎 能够尽快地将新闻的链接和关键词加入索引,那么频繁更新缓存页面的服务器开销会很大,并且缓存文件所占的空间也会越来越大, 因此针对此种情况提出了实时的静态化策略。
请求页面时即时生成定时销毁的静态页面缓存,爬虫机器人请求时, 首先查找是否存在缓存以及页面缓存是否失效,如果缓存有效则返回静态池中的静态页面,反之则生成新的静态页面或者更新静态池内的静态页面, 修改后的实时静态化策略原理..同时,此实时静态化策略也改进了页面的缓存方式,它对于不同缓存页面的关键字设置不同的清理权重(即更新频率高低,需要人工设置)。 较为稳定的页面———例如首页菜单、公司信息等展示页面可以设定较小的权重值;更新比较频繁的页面,例如新闻公告、发布消息的汇总页则可以设定较大的权重值。权重越小的静态页面的缓存时间越久,可以保存一天甚至是一周,这样可以大幅节省频繁生成此类缓存的资源浪费; 而权重越大的静态页面由于更新频繁,所以缓存时间越短,考虑到搜索引擎的爬虫机器人不会实时抓取信息,而是间隔一段时间(一般为四至五小时)才会重新抓取,因此可以在两到三小时或更短的时间后清理此类缓存。
这里的缓存也可能会清理失败,所以在判断缓存是否存在的同时也需要检查静态页面的失效时间, 避免过时的旧页面缓存影响新发布信息的检索。策略还规定了当网站重新部署后强制清理所有缓存。