optimized feedman

一个简单的feedman终于成形了，目前只有一个功能，即按照更新时间顺序排列所有的feed，见这里。我居然一共订阅了211个feed，天知道每天在这上面浪费了多少时间。

一度担心这个程序运行时间太长，无法在dreamhost上运行，后来才发现是个笑话，还有大把的CPU时间可以利用，接下来这一年要充分利用一下。不过优化还是做了，效果比较明显，下面是优化后的profile结果：

Total Elapsed Time = 1552.900 Seconds
  User+System Time = 30.78019 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c  Name
 57.2   17.62 17.627 252416   0.0000 0.0000  XML::Parser::Expat::eq_name
 25.0   7.714 25.340 720851   0.0000 0.0000  XML::Parser::Expat::within_element
 11.4   3.521 31.838 152421   0.0000 0.0002  XML::RSS::handle_char
 4.85   1.492  1.492 195848   0.0000 0.0000  XML::Parser::Expat::namespace
 3.36   1.035  1.903 384149   0.0000 0.0000  XML::Parser::Expat::generate_ns_name
 3.20   0.986  0.986 318115   0.0000 0.0000  XML::Parser::Expat::current_element
 3.08   0.947  1.766   1188   0.0008 0.0015  DateTime::new
 2.82   0.868  0.868 224071   0.0000 0.0000  XML::Parser::Expat::GenerateNSName
 2.79   0.860 34.604    117   0.0074 0.2958  XML::Parser::Expat::ParseString
 1.72   0.528  0.559   4795   0.0001 0.0001  Params::Validate::_validate
 1.55   0.477  1.881  19221   0.0000 0.0001  XML::RSS::handle_start
 1.00   0.308  0.318    649   0.0005 0.0005  URI::_init
 0.57   0.176  0.340   5605   0.0000 0.0001  LWP::Protocol::http::SocketMethods::sysread
 0.53   0.163  0.163   5605   0.0000 0.0000  LWP::Protocol::http::SocketMethods::can_read
 0.53   0.162  0.672    225   0.0007 0.0030  LWP::Protocol::collect

对比上次profile结果可以发现，User+System时间从70秒减少到30秒。既然XML::Parser已经是最快的，优化又是如何做的呢？方法是减少调用次数。首先是检查LWP::UserAgent->mirror的返回代码，判断xml文件是否更新过，如果没有更新，自然也就没有必要解析；另外对于不能使用mirror的网站，虽然每次仍然抓取，但也未必一定要解析，方法是每次抓取下来后使用Digest::SHA生成一个256位的16进制码，并保存起来，如果下一次生成的码没变，那么就可以假设该文件没变，因此也不需要解析xml文件，这样占用时间最多的Perl过程的调用次数减少了一小半。

让我困惑的是怎么总时间差那么多？上次是怎么测试的？难道只测了google reader上的订阅？

在开发这个程序的过程中真是什么问题都碰到了，当然问题最多的还是日期问题。比如排在第一的那位，最近更新时间居然是2008年！还有排在第二的（2007年2月8日）Stevey’s Blog Rants，我在bloglines上好久都没看多有更新，而在我这里居然排第二，仔细检查后发现原来他在feedburner上的feed已经改过了，我用的那个已经无效，而更新时间是从其它feed上得到的。还有，Site News for A.P.Lawrence Unix, Linux and Mac OS X Resources的月份数居然是从0开始，开始的时候没仔细看，心想日期明明就在那里，怎么就解析不出来呢？在调试器里折腾了好几趟，终于发现了这个诡异的问题。再有一个让我吐血几天的是思维驱动，日期就在那里啊，而且格式也对！？原来是不能用mirror，这才使用了前面提到的Digest::SHA。

最后还是要提一句，做优化切莫想当然，一定要基于profile的结果。