实验进展(5.28)
昨天是周日,花了一天时间做了两件事:
- 实现了Crawl Frontier里的URL的priority动态更新。开始尝试了在BerkeleyDB::BTree的key值里插入URL的做法,但需要对整个Crawler框架进行修改,会影响到其它模块的运行。最后选择了一种更简单的方法,就是在提高priority时再插入一个URL,以后每次从Crawl Frontier抽取URL时,先判断它是否已经被下载过了,这里一个复杂的问题是需要正确的对不同URL的计数问题;
- 发现了以前没有发现的几个小的Bug;另外,发现当一个软件代码数量达到一定程度时,对其进一步扩充新的功能会变得越来越困难,因为改变了一处很可能会牵涉到无数其它相关模块,现在明白了做大型项目时软件工程方法的重要性;
现在的一个新的技术挑战是自己的relation learner的算法问题,按目前的算法它对min_accuracy参数过于敏感,下一步打算重点解决这个问题。现在的想法是利用以前编写的另一个更加复杂的learner模块尝试一下效果,希望自己能遇到好运气!

1 条评论:
好充实的生活
发表评论