我的web日记: 实验进展（5.28）

昨天是周日，花了一天时间做了两件事：

实现了Crawl Frontier里的URL的priority动态更新。开始尝试了在BerkeleyDB::BTree的key值里插入URL的做法，但需要对整个Crawler框架进行修改，会影响到其它模块的运行。最后选择了一种更简单的方法，就是在提高priority时再插入一个URL，以后每次从Crawl Frontier抽取URL时，先判断它是否已经被下载过了，这里一个复杂的问题是需要正确的对不同URL的计数问题；
发现了以前没有发现的几个小的Bug；另外，发现当一个软件代码数量达到一定程度时，对其进一步扩充新的功能会变得越来越困难，因为改变了一处很可能会牵涉到无数其它相关模块，现在明白了做大型项目时软件工程方法的重要性；

今天初步实验了一下昨天的成果，发现有希望解决以前一个一直困惑我的问题，那就是如何避免focused crawler的stagnation的问题，现在这个古老的问题好象不再成为问题了。
现在的一个新的技术挑战是自己的relation learner的算法问题，按目前的算法它对min_accuracy参数过于敏感，下一步打算重点解决这个问题。现在的想法是利用以前编写的另一个更加复杂的learner模块尝试一下效果，希望自己能遇到好运气！

我的web日记

2007年5月28日星期一

实验进展（5.28）

1 条评论:

我的简介

博客链接

网页链接

我的相册

最新评论

Tag Cloud

博客归档