2007年5月28日星期一

实验进展(5.28)

昨天是周日,花了一天时间做了两件事:

  1. 实现了Crawl Frontier里的URL的priority动态更新。开始尝试了在BerkeleyDB::BTree的key值里插入URL的做法,但需要对整个Crawler框架进行修改,会影响到其它模块的运行。最后选择了一种更简单的方法,就是在提高priority时再插入一个URL,以后每次从Crawl Frontier抽取URL时,先判断它是否已经被下载过了,这里一个复杂的问题是需要正确的对不同URL的计数问题;
  2. 发现了以前没有发现的几个小的Bug;另外,发现当一个软件代码数量达到一定程度时,对其进一步扩充新的功能会变得越来越困难,因为改变了一处很可能会牵涉到无数其它相关模块,现在明白了做大型项目时软件工程方法的重要性;
今天初步实验了一下昨天的成果,发现有希望解决以前一个一直困惑我的问题,那就是如何避免focused crawler的stagnation的问题,现在这个古老的问题好象不再成为问题了。
现在的一个新的技术挑战是自己的relation learner的算法问题,按目前的算法它对min_accuracy参数过于敏感,下一步打算重点解决这个问题。现在的想法是利用以前编写的另一个更加复杂的learner模块尝试一下效果,希望自己能遇到好运气!

1 条评论: