2007年5月25日星期五

实验进度(5.24)

到昨天为止把13个类别下的两种focused crawling方法实验做完了,Soumen Chakrabarti的accelerated focused crawler效果比best first好不了太多,分析了一下原因,link context的嗓音过大是主要原因,另外他的方法加入了位置信息后过于高维稀疏,容易导致overfitting.
今天正式开始验证自己的算法first-order focused crawler,比较费时,而且需要人工参与调参,但效果确实有极为明显的改善。打算先作precison即harvest ratio方面的比较实验,以后再作recall方面的,当然这种recall只能是近似和粗糙的。
不知为什么,自从参加了WWW2007大会后反而对研究渐渐失去了兴趣和热情,就连WWW大会的很多论文也仅仅具有理论的价值而已,特别是那些为了论文而论文的行为尤其让自己感动厌倦,国内幼稚的评价体系也让人无奈。自己现在只想把现有的工作做完,用真实的实验数据发表一篇能令自己满意的论文。
我现在惟一的目的是想证明一下即使在自己所在的学校,凭借真实的工作获得学位也是可能的,:(。

1 条评论:

天道无名 说...

产和学还是脱节的。评价研究讲究创新,但创新就不能保证真证实用,就象SW一样。也许想去探索一下未知的东西,挑战一下自己是我们最原始的动力,但被一些东西束缚后,这种动力就很渺小了。自己也不知道到底是喜欢技术还是喜欢研究,也许更偏爱技术,毕竟应用了就有成果。不过现在已经走上研究之路,只能继续了。