2007年5月31日星期四

普通的一天

今天早晨终于在跑了五次中国银行、六次学校财务处之后把WWW大会的注册费650加元报销完毕,真是不容易,感觉比整个出国手续办起来都困难和繁琐,现在回想起来都后怕。特别是中国银行支行的服务态度极端恶劣,让自己白跑了至少两趟,如果像国外一样服务人性化一些,这些本来是可以避免的人力浪费。
从西安大路中国银行回来正打算把整个繁琐的报销程序在博客上写一篇文章的时候,自己的手机响了,是以前自己投送简历的中科院的项目负责人的电话,自己建议在MSN上聊,他说他们老板今天从美国回来了,对我的简历很感兴趣,问我这周能不能去北京面谈一下。这实在是有些让我感觉吃惊,最后商定趁去北京参加6月16日的YAPC2007大会期间和他老板见面,看来他们真的感觉找对人了。
下午去红旗街欧亚科技城买了一个非常小巧的mp3用来学英语之用,回来网上一查,它是爱国者新推出的俗称“麻将mp3”的低价位的新款。总体感觉不错,269元定价,但有1G容量,是内置的锂电池可以充电。以后自己会充分利用它提高自己的听力水平的。
明天是六一儿童节了,自己和妹妹约好去接张芳菲放小学,然后去沃尔玛给她买了儿童节礼物,然后我们一起去看开超市的妈妈,自从出国开会回来自己还是头一次看到妈妈,胖了一些,但精神还是很好,每天辛苦经营一个大算小的超市,还要做一日三餐,看着妈妈真是觉得她太辛苦了。

2007年5月30日星期三

一次投实习简历的经历

自己抱着试一试的态度打算到网上找找关于实习的信息,发现Google暑期实习已经结束了,而且实习生都要经过一次笔试和两轮面试,还要成绩单。自己最熟悉的编程语言可能是PERL了,所以自己在Google里输入了“perl实习”的字样,结果发现中科院计算所最近有一个招收perl实习生的广告,要求有三条:

  1. 熟悉perl
  2. 独立完成过1K以上代码
  3. 良好的英文阅读能力
我想不出有谁比自己更适合这个实习职位的了,于是我发了封邮件给招聘人员,大致介绍了一下自己在Perl上面的造诣,没想到很快就收到了回信,显然对我的情况挺感兴趣,我告诉他最早也要在7月份才能去北京实习,他说没关系。原来这是一个很大的项目,短时期内需要交差,老板是美国一所大学的副教授,是中科大少年班毕业的,想不到还是自己的校友。我写了一份正式的中文简历发了过去,第二天招聘方就把我的MSN加了进去,我和他聊了很长时间,他说他们老板从美国带回了一些Perl语言代码,需要有人把它和Java结合起来,他还给了我一个网址:http://tangra.si.umich.edu/clair/,仔细一看是一组关于NLP和IR的Perl语言包,里面竟然有很多自己现在研究也能用得到的东西,里面甚至有计算PageRank的包,这更让我激发起了对加入这个项目组的兴趣,他说他们老板很忙,这周会回北京,问我有没有时间去和他聊聊。自己在这个学期结束之前是不能马上去北京的,所以只能拒绝,但显然他对我很感兴趣,估计去他们那里实习应该是不成问题的。
这次愉快的经历让我对7月份的北京之行充满了期待。

作假还是不作假,这不是个问题

今天听说研究生毕业设计检查代码时有人用到了我在实验室开放的源码。本来研究生毕业设计作假已经是公开的秘密,但自己辛苦写就的代码被这样无所顾忌地用在这样的场合,心里还是非常气愤。下面是我在实验室邮件列表发表的一则郑重声明:

自从自己在网上开放了自己的focused crawling源码后,在任意一台机器上布署一个focused crawler变成一件非常简单的事情,只要学学Linux基本操作就能让检查代码的老师无话可说。但我的focused crawler代码是遵照GPL开源协议的,它的最基本原则是使用该源码时的最终产品也必须是完全开源的,但作为研究生的毕业设计(程序代码是其中的重要一部分)是以签署保密协议为前提的(每个人在自己的毕业论文前面都有这样的声明),因而不能使用开源软件,包括我的源码,除非事先争得作者的授权。另外,作为吉林大学的一名老师,自己有义务防止毕业设计里的作弊行为,特别是在自己工作基础上的作弊,所以本实验室成员以后如果有人在毕业设计里需要用到我的源码,请事先争得我的同意和授权,如果在检查代码时发现其代码与我的重复程度超过50%,自己保留检举揭发的权力.
除去毕业设计之外的研究和发表活动不在上述声明范围之内,这时我的代码可以随意使用,实验数据无论怎么作假都可以,但请想一想这样的研究工作有什么样的意义!

2007年5月28日星期一

实验进展(5.28)

昨天是周日,花了一天时间做了两件事:

  1. 实现了Crawl Frontier里的URL的priority动态更新。开始尝试了在BerkeleyDB::BTree的key值里插入URL的做法,但需要对整个Crawler框架进行修改,会影响到其它模块的运行。最后选择了一种更简单的方法,就是在提高priority时再插入一个URL,以后每次从Crawl Frontier抽取URL时,先判断它是否已经被下载过了,这里一个复杂的问题是需要正确的对不同URL的计数问题;
  2. 发现了以前没有发现的几个小的Bug;另外,发现当一个软件代码数量达到一定程度时,对其进一步扩充新的功能会变得越来越困难,因为改变了一处很可能会牵涉到无数其它相关模块,现在明白了做大型项目时软件工程方法的重要性;
今天初步实验了一下昨天的成果,发现有希望解决以前一个一直困惑我的问题,那就是如何避免focused crawler的stagnation的问题,现在这个古老的问题好象不再成为问题了。
现在的一个新的技术挑战是自己的relation learner的算法问题,按目前的算法它对min_accuracy参数过于敏感,下一步打算重点解决这个问题。现在的想法是利用以前编写的另一个更加复杂的learner模块尝试一下效果,希望自己能遇到好运气!

2007年5月25日星期五

参加国外计算机会议的10点经验

自己参加WWW大会有很多的心得,有意想不到的收获和惊喜,也有很多的遗憾,现总结一二,为以后留作参考:

  1. 在你决定去参会之后即马上开始买飞机票,不必为签证没有办下来而有后顾之忧(这种参加学术会议的签证一定能办下来),这可以节省一大笔费用,因为越是早订的飞机票越是便宜。比如这次如果我早买去加拿大的往返飞机票的话,最便宜4000人民币就能买下来,自己到最后时刻好不容易买到的票定价已经是11000元,贵了几倍之多;
  2. 如果像WWW大会一样是按天注册的话,并且你恰好手头很紧,以学生身份仅注册一天已经足够。会议上从来不会有人检查你的挂牌上是否包含今天的费用,国外很多事情全靠自觉,如果有足够的money,还是像老外一样照章办事的好;
  3. 别指望会议提供的食物能让你吃得可口,东西方饮食习惯差别太大了。我看见一个北大的老教授拿着生的菜花就啃上了,在国内他是不会这么饥不择食的,肯定是没别的可吃的了,:);
  4. 千万别在开会之前就把自己感兴趣的论文都看过一遍,那样的结果是你看presentation时会感觉索然无味,没有新鲜和好奇的感觉,这也是我为什么在博客里只写了开会第一天的原因之一;
  5. 国外电源插座和国内不同,两头插头可以直接用,但如果想使用国内的笔记本就必须带一个从三头到两头的adaptor;
  6. 尽可能地提高自己的英语交流能力,否则就只能去国外却只和国内来的人在一起;
  7. poster没有多少人真正重视,但如果你是一个长论文作者,那你的感觉会很不一样,也能交到更多的朋友,但千万别轻视poster作者,完全可能下一次他就是长论文作者了;
  8. 勇敢地向陌生人点头微笑,主动打开陌生人之间隔膜的人会得到别人更多的好感和友谊;
  9. 相同的研究领域和兴趣是结交朋友最好的方式,报着通过结交名人获得好处的功利心态与人交往不会起到作用;
  10. 好好准备你的presentation,好的presentation可以为你的工作带来更大的影响,让你结交到更多的朋友。

实验进度(5.24)

到昨天为止把13个类别下的两种focused crawling方法实验做完了,Soumen Chakrabarti的accelerated focused crawler效果比best first好不了太多,分析了一下原因,link context的嗓音过大是主要原因,另外他的方法加入了位置信息后过于高维稀疏,容易导致overfitting.
今天正式开始验证自己的算法first-order focused crawler,比较费时,而且需要人工参与调参,但效果确实有极为明显的改善。打算先作precison即harvest ratio方面的比较实验,以后再作recall方面的,当然这种recall只能是近似和粗糙的。
不知为什么,自从参加了WWW2007大会后反而对研究渐渐失去了兴趣和热情,就连WWW大会的很多论文也仅仅具有理论的价值而已,特别是那些为了论文而论文的行为尤其让自己感动厌倦,国内幼稚的评价体系也让人无奈。自己现在只想把现有的工作做完,用真实的实验数据发表一篇能令自己满意的论文。
我现在惟一的目的是想证明一下即使在自己所在的学校,凭借真实的工作获得学位也是可能的,:(。

2007年5月23日星期三

今天发现Gmail的一项特别有用的新特性

因为有自己学校的邮箱,自己平时的Gmail邮箱基本很少使用,今天不经意间发现了Gmail的一项新功能,就是它支持与本机文件系统的上传、下载,你可以把自己的Gmail邮箱当成一个ftp服务器来使用。这项功能对我尤其实用,自己经常在家里的机器上下载大量的网页数据,有时需要把它带到学校机器上处理,以前都是用光盘刻录的,一则有容量大小限制,二则一旦完成了数据载体的使用,我就把它扔进了垃圾箱,浪费钱财和资源。现在自己终于有了一个非常理想的2G容量的“网络硬盘”。
使用Gmail的ftp功能需要在FireFox浏览器上安装一个叫Gspace的插件(安装见http://www.getgspace.com/download.html),使用起来极为方便,选择Tools->Gspace,就可以使用Gspace的Web界面了,下面是我在使用Gmail上传本机文件时的屏幕截图,怎么样,看起来是不是和各种ftp软件界面很相似啊?
除了文件传输,它还有照片管理等其它功能,这留待自己在以后去慢慢发现。

2007年5月21日星期一

近期的3个计划

自己为参加WWW2007投入了很多的时间和精力,当它已经完全成为了回忆的时候,现在已经是5月的下旬了,7月份自己的生活将发生重大变化,新的机遇和挑战可能再不允许自己有现在这样从容写博客的机会了。的确,现在真的是一个制定计划的好时机,虽然只能持续1个月多的时间。
自己制定的计划如下:

  1. 最关键的是把自己的实验做完,以前的工作已经打下了很好的基础,大致知道了哪些option是错的,哪些是promising的。看了一个www大会同行者的博客, 自己深受触动。自己必须拿出刚开始读研究生的干劲出来才对的起自己这可能是最后的平静的研究机会。我会加油的!
  2. 越来越发现自己在算法基础方面有欠缺,以前甚至连dynamic programming是什么都不知道。“Introduction to Algorithms”是本绝妙的好书,以前看了一部分已经受益非浅,自己力争把它坚持读下去。我相信:读透一本好书胜过浏览整个图书馆,它就是这样一本值得仔细把玩的好书。从实际应用角度,相信读过这本书后自己可以有信心去迎接未来的各种面试甚至Google全球编程赛。另外,emule上可以下到书中各章的课堂录像.
  3. 这次参加WWW大会最大的感触之一是自己的英语听说能力,昨天装了英语字幕后看了“从地球到月球”的电影,发现甚至在给了英文字幕的情况下很多会话自己都跟不上,这大大打击了我的自信心。这次回来我做的第一件事就是打听吉大的英语角在哪里。练习英语当然不能速成,关键是持之以恒。据说人在21天可以养成一个习惯,老天啊,如果让我选择一样可以培养的习惯,我希望是学英语。这段时间自己的重点还是放在听力方面,以后去了北京争取直接和老外交朋友,最大限度地利用北京的优势。制订计划总是让人轻松愉快的,因为你有理由得到暂时的放松,今天我想尽情地享受长时期紧张之前的这一短暂的黄金时刻,:)。

2007年5月20日星期日

这两天把自己的blog加上了很多附加功能

最近从网上了解到最主要的blog发布平台是两个:一个是我正在用的Blogger,另一个是WordPress.两者很像Windows和Linux的差别,前者更易新手入门,但后者的功能更强大.另外blogger好象还经常被国内封掉.看了其他人的blog,发现有很多自己的Blogger系统不明确支持的功能,比如日历、最新评论、点击统计等等。以前用过的百度空间就有一个很好的"统计分析"功能,可以明确地显示出自己的博客文章是如何被别人发现并点击的。后来网上看到其实极大多数功能都可以通过各种hack手段来弥补,特别是利用Blogger可以直接修改HTML代码的功能加入各种widget,现在终于明白了web2.0为什么是连Tim Berners-Lee都无法否认的巨大成功了。
自己在看了很多人的博客后,通过hack方式为自己的博客加入了以下几个功能,它们都已经在自己的博客页面右侧显示了出来:

  • 最新评论:这个功能很实用,可以一目了然地知道自己的博客文章有了哪些最新的回应;
  • Tag Cloud:这个功能取代了以前单调的tag list,通过tag的大小和颜色可以一目了然地发现哪些tag是最热门的,新来者很容易通过它对作者的志趣有一个非常直接的了解;
  • ClustrMap:这个最早是在唐凤的博客上看到的,它可以取代百度空间的"点击统计"功能,功能极其强大。
以后还考虑加入“日历”和“相册”功能,相信随着Google的技术投入,Blogger的功能会越来越强大的,这也是我愿意使用它的原因之一。
现在明白为什么那么多人对写博客乐此不疲了,也明白为什么web2.0时代用户不再是消极被动的内容消费者而成为积极的内容生产者。自己在百度空间上的文章已经可以通过搜索引擎检索得到,前几天着实让自己吃了一惊。

2007年5月18日星期五

我向开源软件NalandaFocusedCrawler提交的bugfix被接受了

我是研究Focused Crawling的,Soumen Chakrabarti在www2002年提出的accelerated focused crawler是多年来一直无法逾越的高峰(很大部分原因是他后来转到别的研究方向去了,:)),特别是他提供了开源的软件包Nalanda Focused Crawler可以参考,自己当然会对其进行仔细研究,自己今年寒假仔细地阅读了其源码,发现在他最核心的算法实现中有着非常多的严重的bug,我向iVia开源组件提交了bug,很快得到了回应,还把自己在www2007的关于focused crawling的poster论文要了去。今天偶然看到最新的unstable版本已经改正了我提出的bug,在它的CHANGELOG(http://ivia.ucr.edu/download/files/Nalanda_iVia_Crawler-2.4.0.changelog)里特别提到了我的贡献,这让我非常开心和有成就感:

------------------------------------------------------------------------
r30608 | vanderp | 2007-03-14 10:10:50 -0700 (Wed, 14 Mar 2007) | 1 line
Changed paths:
M /trunk/Nalanda_iVia_Crawler/src/focused_crawler/FocusMeta.cc

More bugfixes suggested by our friend PHd in China.
------------------------------------------------------------------------
但目前该版本还是unstable版本,估计离真正可用阶段还有相当长的距离,自己找到的都是非常严重的bug。不管怎么说,自己的bug提交被采纳还是觉得很开心,自己终于扎扎实实地为开源事业做了一些贡献!


www2007之行(五)--www大会的中国大军

今年www大会共有15篇第一作者是中国人的长论文,在所有注册的代表数量方面,中国也排在了美国、加拿大和英国后面居第四位。这很让人想起奥林匹克运动会的中国队的历史。微软亚洲研究院长沈向阳还在他的博客上发出像征服奥林匹克一样向世界顶级计算机国际会议进军的口号。MSAR也确实远远走在了中国大陆高校研究机构的前面,每年像WWW和SIGIR这样的顶级会议都收获颇丰。令人欣喜的是,这次WWW大会也出现了两篇完全本土化的论文,一篇是北京大学裘宗燕老先生的关于Web service的论文,另一篇是东南大学XOBJECT研究组张祥博士的一篇论文,是关于semantic Web的. 粗略看了一下这两篇文章所在研究组的发表纪录,也都有长期国际化发表的历史。特别是东南大学的XOBJECT研究组,他们导师以身作则每年在WWW或ISWC这样和semantic Web相关的顶级会议上发一篇文章。其它的来自中国的论文多数是来自微软、IBM的intern,在这些国际化的机构里面显然有着国内高校无法比拟的优势。上海交大的apex研究组这次带来了四篇长论文,有的甚至仅仅是大四的学生,看了一下他们的论文,都是研究Web2.0这样最新前沿的工作,其实他们未必在个人素质方面超得过北大、清华这些学校的学生,但因为他们身处于一个放眼国际视野而不是SCI的标准的环境,再加上有大量与国外合作的机会,却能取得骄人的战绩。开会回来的路上认识了一个中科院计算所的主任,他提到现在国内高校的科研评价指标确实极不合理,但没有人短时间内拿出一个solution出来。像我认识的那个印度学生Sen甚至从来没听说什么是SCI,当我详细地把国内采用的评价体系向他解释的时候,他只说了句“It shot my heart”。一次lunch时间我和微软的一个研究员聊了一会儿,他对国内高校评价体系不与国际接轨给出的解释是“如果接轨,会触及很多人的既得利益”。
自己在参加WI2004国际会议时认识了一个北京大学李晓明实验室的博士,他说他们导师现在已经开始把自己实验室的标准与国际标准看齐,不在像WWW这样顶级会议上发表论文甚至拿不到博士学位,但他们与微软亚洲研究院以发paper为主不同的是,他们要完成大量的实际开发项目,有的学生毕业出来就可以直接去创业,但在顶级会议的发表方面依然乏善可陈。他特别提到一次微软亚洲研究院的一个研究员在与他们实验室进行交流的时候,不免得意地说他们MSAR在发论文发面有自己的“秘诀”。他对MSAR的一些论文的评价也不高,认为没有多少实际意义,仅是为了paper而paper。不仅是他一个人有如此看法。另外像SIGIR会议他们的小圈子习气也非常浓重,有的第一年发过论文第二年就可以当会议的评委。
虽然有了足够多数量的论文,我的观察是中国在WWW大会里仍然是一名羞怯的客人,真正创新性的思想主要还是来自于欧美的著名高校或研究机构里。除了极少数论文作者之外,绝大多数都存在着某种程度上的英语方面的障碍,在聚会时,也多数是中国人与中国人聊,不能产生最大限度的学术影响力。这只中国大军还需要进一步增强自己的实力,而不是把心思过多地放在国人擅长的投机和钻营上。

2007年5月17日星期四

www2007之行(四)--Banff印象

Banff是加拿大著名的国家森林公园,位于加拿大的西南角,据说以前朱镕基总理去加拿大访问时特意冒雨去Banff一游.这里是一个典型的旅游城市,整个城市只有一条主要街道Banff Avenue,数不清的大小旅馆就在这条街的两旁,城市的当地人口比外地的旅游人口要少得多.这里一个非常奇特的景象是它有一个非常长的daytime,仔细看看旁边照片里的大钟,已经是晚上7点了但太阳还老高老高.真正完全天黑要等到晚上九点之后.
这里有数不清的gift商店,但多数的衣服和工艺品都是made in China的.很多商店是日本人或给日本人开的,街上的日本游客也特别得多.店里的服务员会对每个顾客先问候一声,这让来自大陆的我感觉很不习惯.这里的1加元在当地的购买能力大致相当于1元人民币在国内,比如这里的矿泉水大约1.5加元左右,T恤大约10到20加元.自己临走之前特别买了一件T恤,当时以为是当地产的,还特意向售货员确认了一下,没想到回来后仔细一看还是Made in China的,呵呵。这里有中国餐馆但是非常之贵,自己实在饿极就去这里惟一的一家"卖当劳"里买个1.79加元的snack wrap吃吃.后来我在YWCA的免费读物里还知道这个城里每周三都有定点的免费食物.

整个城市被一条河流分为两半,北半部分是包括Banff Avenue的downtown,南边通向温泉和世界著名的Fairmount Spring Hotel所在地,这里景色非常优美,可惜因为开会时间匆忙没有来得及好好逛逛,下面是一些风景照片,希望能把它的优美景色传达一二,更多照片请看“我的相册”中的"www2007“组照:

www2007之行(三)--正式会议的第一天

5月9日是www2007正式大会的第一天,特别是上午从8:00到10:00有World Wide Web创始人兼Semantic Web的提出者Tim Berners-Lee的报告会是一场重头戏。我和Sen很早就出发但还是发现来晚了,会议大厅里已经坐满了各个国家、各种年龄和各种身份的参会者。大厅前半部分有桌子,可供带有笔记本的代表使用免费的wireless网。自己好不容易找到个最后排的椅子坐好,大会便开始了。先是在大屏幕上播放了历届大会的logo的动画演示,基本上www大会是一年美洲、一年欧洲、一年亚洲举办的。然后会议组织者介绍了一下本次会议的大体情况,特别有趣的一件事情是本次会议绝大多数论文的提交时间都是在Dealine的最后几个小时,直到最后一天投稿量都少得可怜,这让会议组织者一度非常worried。这也间接地显示了这个会议的级别,绝大多数投稿都是精雕细琢的用心之作。去年这个会议的录取比率仅为10%多一些,今年多收录了20%的论文,但最终的录取率也不足15%。大名鼎鼎的WWW之父Tim Berners-Lee终于登场了。他的演讲题目叫“The Two Magics of Web Science”,仅看题目便可以猜出个大概,这两个Magics应该一个是他提出的Semantic Web,一个是他以前不愿承认但现在已经无法忽视的Web2.0。Tim已经不年轻了,但他说话很快,充满了激情,有的时候动作夸张到像在戏剧表演。他还在现场进行了一次调查,先让参加过连续两届www大会的代表举手,然后三届、四届,会场上举手的代表越来越少,最后全部参加的举手的就只剩下Tim一个人,显然这给予了他很大的精神满足。
自己在他还没有完全讲完的时候就提前去了外面,因为自己没有吃早餐,正好每天上午10左右会提供各种食物和饮料,除了各种饼干和coffee,有时会有我很喜欢的大个草莓供应,一个草莓大小抵得上一个桃子。
Tim讲完之后正式的presentation便在各个分会场同时并行举行了,我感兴趣的主题也恰是www大会最核心的永恒主题:Web Search和Data Mining,一直到会议的最后一天都有这两个session举行。而像北大的裘老师是研究web service的,只在最后一天才能找到感兴趣的session。等我兴匆匆地赶往Alberta大厅时,已经有很多人占据了座位,有的人直接坐到了铺有地毯的地上。今天我感兴趣的session都在这里举行,一天都是关于Search的。上午是Search Potpourri,下午是Crawlers和Web Graphs。这里面要讨论的论文自己以前都仔细看过,很遗憾今年和自己研究的小领域特别相关的论文非常之少。
在我到达时Search Potpourri的第一篇论文“Navigation-Aided Retrieval"的presentation已经开始了,像很多论文一样,这次的presenter也不是论文的第一作者,而是Yahoo!研究组的有名的Christopher Olston,这是一篇非常有新意同时也很有趣的论文,有很多人提问,特别是来自百度的威廉张格外踊跃,在旁边的照片里最右边穿白色衬衫的那位就是那位老兄。在随后几天的会议之中,他一直是我见到的听讲最积极活跃的人物。第二篇论文"Efficient Search Engine Measurements"是在www2006的最佳论文基础上的进一步工作,作者是原班人马,这次主要是大大提高了速度。它的第一作者算是这个领域的一个牛人,个子很矮小却给人很冷酷和咄咄逼人的感觉。顺便说一句,web研究领域很多牛人都非常矮小,包括后来出现的Bing Liu。这让我得出一个结论,看研究者个人主页照片时一定要有所保留,因为照片里无法显示他真实的身高情况。虽然论文是非常好的工作,研究的是如何通过各个主要搜索引擎的接口对其索引的网页数量进行探测。演讲者是第一作者的某个学生,台上很放不开。第三篇论文“Efficient Search in Large Textual Collections with Redundancy"是上午惟一一个第一作者的presenter,是国外大学的华人学生,英语明显有待提高但显然经过精心准备,这篇论文也是一篇best student award的candidate论文,可能因为作者的精心打造,这篇论文最终获得了最佳学生论文奖。它的idea其实实在是简单到不能再简单,自己一直很奇怪为什么它会得到这么大的关注。显然威廉张对这篇论文很兴奋,中午lunch时也能听到他不断重复着”interesting、interesting"字眼。
吃完了lunch,开始了Crawlers的小session,它也是我可能整个会议里最相关的工作。第一篇论文“The Discoverability of the Web"同样来自Yahoo!研究组,第一作者很瘦小,特别是英语发音非常令人奇怪。第二篇和第三篇都是来自犹他州立大学的同一个作者,分别是关于Deep Web的发现和分类的。说实在话,他的工作并不是很让我佩服,后来休息时我直接走向他的跟前和他交流了几句,他承认他的工作不过是在Context Graph基础上加入了online学习的功能,并对link进行了细粒度的刻划而已。但他显然做了很多工作,特别是每个Form分类器的正例都是手工采集的,这需要非常大量的人工劳动。晚上有个Reception我看见他和同样十分瘦小的女导师一起走过,我还和他打了招呼。他的mentor和他有非常相近的气质,都极为严谨和清矍。看见这样两个极为瘦小但坚定的师徒二人匆匆和你擦肩而过,会给人一种非常奇怪的感觉。
下午最后一个小session是Web Graphs,第一篇论文“Random Web Crawls"是一篇来自法国的论文,一个很胖操着明显法国口音英文的学生很放松得进行着陈述。第二篇论文”Extraction and Classification of Dense Communities in the Web"是一篇关于Web Communities的自动发现的论文,比前人大大前进了一步,演讲者是第一作者的导师,是一个意大利人,一个非常幽默的老头,也是惟一能用演讲把听众逗乐的一位,说实话,我很喜欢这个老头。第三篇论文“Web Projections: Learning from Contextual Subgraphs of the Web"的演讲者是来自CMU的非常年轻的小伙子,年轻到你能想象到他作完演讲就可能上街去玩滑板去了。因为是来自CMU的,很容易想象一定是关于Machine Learning的论文,但它的立意非常新颖,新颖到你不想去关注它在实际中到底有多大的用处。
正式会议的第一天结束了,像几乎所有会议一样,第一天的presentation得到最多听众的关注和呼应,所以如果以后论文被安排在会议的最后一天,你几乎不用为提问作准备,因为听众大部分或者已经打道回府了,或者去外面游玩去了。

2007年5月16日星期三

www2007之行(二)--我的印度朋友和registration

自己几乎是在最后的时刻才决定去 Banff的,网上找遍Banff的大小旅馆发现开会时间基本预订完毕,最后发现在Banff有四家hostel,即青年旅馆,很像大学生宿舍里的一张床位,价格非常便宜,每晚上只需30加元不到。自己仔细对四家进行权衡之后在网上预订了YWCA,它也是离会场所在旅馆最近的一家,步行10分钟左右即到,但它不提供free的breakfast。自己打开自己房间门的时候,发现有一个典型的醉鬼躺在椅子上就睡着了,地上满是酒瓶,床上开着广播放着摇滚乐。自己的房间的位置也很糟糕。Common kitchen就在自己的房门外边,即使到了深夜还有人大声地说笑(而且是我听不太懂的说笑),而Banff这里因为海拔的原因,晚上到了9点太阳还没落山。自己这才发现自己当初真是做了一个非常错误的决定。我躺在自己的床上,虽然非常疲乏却不能入睡,心里充满了忐忑和不安。一会醉鬼醒过来了,和我聊了几句,我借故说自己想早些睡觉才把他打发走。自己躺了一会后打算来个“主动出击”,不再被动地受罪而是主动与人交流,虽然语言能力极为有限。一会终于有一个清醒的室友回来了,我主动和他打了招呼开聊。他听说我是Chinese后卷起衣服给我看他全身的纹身,里面有中国古代美女的图案。他说他很喜欢中国文化,于是我告诉他中国文化是多么地特殊,他说他会四门语言,还自吹他的“brain is very fast”,于是我告诉他中文是多么地复杂和不同。显然我赢得了他的友谊,我甚至答应他以后去北京看奥运会时可以直接来找我。他很豪爽地和我分享他的各种食物,但我对他的苞米花实在是不感兴趣。虽然可以与人交流,自己还是苦于找不到同类。身边人说话里最常用的词汇不外乎girl和drink. 过了一会儿,一个戴着黑色眼镜的印度人带着大包小裹地走了进来,我心中一阵狂喜,因为我有非常可靠的直觉告诉我他是和我参加同一会议的同路人。经过询问之后,我得知他不仅是参加会议的,而且是一篇长论文的作者,虽然他的领域是我不甚了解的wireless web。我我很高兴有和这样一个优秀的人作朋友的机会,虽然我很快便发现他的英语发音非常不标准,有时连morning这样的单词都听不懂。他的名字叫Sayandeep Sen,我的中文名字发音对他来说太难了,怎么也发不对,后来索性放弃了.他和我聊了几句后就去给家人打电话去了,回来后我们约好第二天一起步行参加会议。我在Banff的第一个晚上就这样地过去了。我身上只有一件夹克和短袖的衬衫,晚上有时我会无比地想念不知身在何处的托运行李里的厚实的衣服。
第二天我们决定一起换个更加安静的房间,它就在原来房间的隔壁,但在我们一起在Banff住宿的几天里,几乎只有我们两个人独享这个房间,有时会有人在晚上入住,但第二天就卷铺盖checkout了。
5月8日早晨我们一起出发向www2007会场所在地Fairmount Spring Hotel走去.我们的YWCA真是离会场太近了,其它的大旅馆都在过了河的downtown,只有YWCA是和Spring Hotel同在河南岸.10分钟的时间就走到了会场,首先要做的事是领取了registration的receipt和一个背包,但里面没有proceeding,因为www大会的proceeding都是网上随意下载的.我现在才知道即使你不交registration费用也不会影响你的论文收入proceeding.另外虽然registration是按天进行的,这里实际上也从来没有人检查你的挂牌上的时间,像很多国外的事情一样,很多事情全靠自觉.我和一个来自卡尔加里大学的volunteer聊了一会儿,他以前是来自中国大陆的,他用汉语告诉我关于Banff的历史,说Banff的历史不到200年,最开始就是因为有人在Spring Hotel的地址发现了温泉才开始建城的.在Spring Hotel的中心广场就是这个最先发现温泉的人的雕像,手的指向显然是温泉泉眼所在地.后来当我告诉Sen这个城市有200年的历史,我们都相视一笑,无论在中国还是印度,这样的历史都实在是太短了,:).
5月8日主要是workshop和tutorial,所以来的人相对以后正式开会的日子少得多.会场专门设立了可以免费高速上网的internet cafe,我很想给家人和女友网上发封电子邮件,于是坐在一台电脑前面.所有的操作系统都是英文的windows XP,由于我的笔记本电脑在托运行李里,自己甚至无法用中文阅读和输入.几个同来的大陆同伴也苦于无法阅读中文,还是自己最先通过下载字体的方法解决了看中文的问题,自己终于看到了女友给我发来的电子邮件,自己又安装了Google的拼音输入法,给她回了一封很短的邮件.下午有一个Soumen Chakrabarti的tutorial,自己告诉Sen他是我的idol,我们便及早去占了座位.中午的自助餐让我们俩个频频摇头,真是糟糕透了,我们尽量拿它填饱肚子,这样早晨就不用在YWCA吃付费的早餐了.下午我们等来了Soumen的到来,正在我开始打瞌睡的时候,坐在旁边的Sen捅了我一下,告诉我那个又瘦又高的大学生模样的就是Soumen,想不到他竟然如此之年轻,在印度人里边算是很英俊的,有一双深思的大眼睛.他看起来精力充沛,举止轻快,讲话速度极快,只可惜他讲的是我不太感兴趣的learning to rank的话题,通篇是大量的数学公式但很少有具体的实例,整个会场上似乎人也不多.是对他个人的崇敬之情让我强忍住困意听完了第一部分.然后我们就一起出来.很快我在人群里发现一个留着山羊胡子的人,很像百度的新任首席科学家威廉张.这样一个在国内大名鼎鼎的人物在www大会会场上似乎并不引人注目,于是我上前和他打招呼,显然我是第一个认出他真实身份的人,如果不是在www大会上而是在北京,不知道我还有没有和他聊天的机会.他给我了一张名片,告诉我回国内后给他发邮件联系一下.后来我在网上查到他在美国长大,毕业于哈佛大学的数学学院.
第一天的www大会结束之后我和Sen一起回到YWCA,让我高兴的是我的行李终于送来了,我打开自己的笔记本电脑,发现完好无损,但是一个新的问题出现了,我的插头无法插入国外的插座里,必须有专用的adapter才行.但我终于有暖和的衣服穿了,最重要的是心里的一块石头落了地.5月9日是正式开会的第一天,早晨是WWW之父Tim Berners-Lee的讲座,明天会是什么样的一天呢?

www2007之行(一)--从北京到Banff

自己现在在自己熟悉的家里用熟悉的文字写着博客,突然感觉十几天的异国之旅已经显得那么地遥远.数不清的新鲜的人和事每天都在刺激着自己的神经,现在自己的第一反映却是异常的平静和麻木.
从踏上北京西单去首都机场的大巴的那一刻起,自己开始了独立一个人的旅行.由于第一次坐飞机没有经验,安检时自己的刮胡刀片被没收了.以前在网上看到国航对随身行李有大小和重量限制,所以没在随身包里放太多东西,自己的笔记本电脑和主要衣服都放在托运行李里.进入了候机室里自己很快和以前网上联系过的几个国内高校同去参加会议的人用手机联系上了.上海交大有三个学生以长论文作者身份参加这次会议,自己和其中的李睿聊了一会,了解了关于他们上海交大apex实验室和实验班的一些事情.自己上飞机时要了一个靠窗的位置,恰好在机翼附近.飞机里禁止带食物和水,所以接下来近11个小时的旅程里饮食由飞机上统一安排.时不时会有漂亮的空姐问你要哪种饮料甚至各种小零食,但正餐只有两次,一次是在起飞之后,一次在着陆之前.飞机从北京到加拿大的温哥华,据说那里是华人最多的加拿大城市.飞机上绝大多数是华人,虽然有些显然是以英语为主要语言的加拿大国籍的.飞机候机室里就有非常年轻的青年看着英文的原版书,我注意了一下书名,是斯坦贝克的《人鼠之间》.飞机上旁边座位坐的是飞机上极少数的外国人,显然是一对刚刚结束中国旅行的老年夫妇,飞行期间很多时间都花在仔细把玩冲洗出来的一大叠照片,仔细注意了一下,很多照片拍的是极普通的国内乡村田间地头的景色,如果不是老外,国人是绝不会把它们作为拍照的题材的,:)。坐飞机只有在起飞和降落的短暂时刻是看窗外的好时机,因为其它绝大多数时间飞机都在云层的上面,白色的云朵是窗外永恒的景色。虽然窗外很单调,自己却无心把已经准备好的书籍打开来看。旁边明显有飞行经验的人很快就开始为倒时差为准备,努力开始睡眠,但自己却兴奋地无法入睡。这个飞机上有多少是和自己同路去Banff开会的?到了温哥华如何办理入关手续?如何接受入关时英语的盘查?虽然只有几个小时的黑夜,自己却心中忐忑,无心睡眠。飞机上放着老掉牙的电影录像--"洛奇",由于无事可做又睡不着,自己竟然把它完整地看了一遍以打发时间。
快到温哥华的时候短暂的黑夜终于过去了,这时候时差效应开始发挥作用了,自己感到无比的困乏。飞机上的第二顿正餐开始了,这次盘里多了一样红色片状食物,看起来很像生鱼肉片,后来自己才知道这是温哥华有名的三纹鱼片。自己很偶然地问起坐在自己旁边的女士这是什么食物,没想到不经意的交谈改变了以后的行程。她不仅是同去Banff参加www2007的同路者,而且是W3C组织中国分会的成员之一,很快坐在我们前边的一位头发花白的老先生也回过头来,说他也是参加这个会议的,我突然记得在"C++ Programming Language"中译本的作者照片里就是他本人,是这次www大会上完全国内本土的长论文作者之一的北京大学的裘宗燕老师。他说他也加入过我开设的www2007与中国的google论坛,但里面贴子实在是太少。后来老先生因为时差开始进入睡眠,自己开始和旁边的女士直到下飞机一直聊个不停。她是w3c组织中国分会的成员,主要负责各种公关事务,包括这次www2007大会上www2008中国展位的设计等等。因为平时经常出国参加w3c活动,她有着丰富的出国旅行经验和足够的英语交流能力。但她本人并不是计算机专业出身,所以问了我很多非常常识性的问题,包括什么是semantic web等等。自己非常庆幸有这样一个有着丰富旅行经验的同伴同行,显然她也很高兴有人结伴同行。

终于温哥华进入了飞机舷窗的视野,自己终于平生第一次踏上了异国的土地。温哥华机场非常漂亮,也很艺术,旁边是我拍的第一张照片,虽然不知道这个雕像的具体含义,但我很快就认出它出现在20元加拿大元的背面.入关要排很长时间的队,轮到我时是一个美洲棕色人种的加拿大海关人员盘查,他问了我一些简单的问题之后在我的签证上盖了一个章,自己终于如释重负地踏上了加拿大的土地。北大的裘老师显然事先就有安排,出了温哥华的机场就被朋友接上了小汽车. 上海交大的几个学生要在温哥华先玩一天。w3c的那个同伴和我一样要从温哥华转机去卡尔加里,但我的飞机时间要比她晚很多,她很好心地主动提出帮我改签机票和行李,她显然也希望能有个同伴同行。在温哥华机场等候去卡尔加里的候机室,有个华人用中文和我们攀谈了一会,说到温哥华房价很贵,这里好工作很难找,还提到这里化妆品很便宜,但烟很贵。终于踏上了去卡尔加里的飞机,飞机上绝大多数都是外国人,但空中小姐却是一个华人。这是一次绝好地比较国航和加航服务质量的机会,很容易地感受出国外服务人员的热情周到和服务的人性化,以后我还会在以后的加国之旅中更加深刻地体会到这一点。到了卡尔加里后,一件非常不幸的事情发生了,可能因为改换行李的原因,我的托运行李没有和别人一样的同时抵达,我的同伴再一次好心地为我办理了行李挂失的手续,我留下了自己在Banff所住旅馆的地址,机场工作人员答应一旦行李到达就送到那里。后来我才知道行李出差错是非常常见的事情,但在当时对我心情的打击是可想可知的,不仅我的笔记本电脑在托运行李里,除了我随身穿的衣服之外,所有保暖的衣物全在那里。由于心情的极度郁闷自己甚至无心好好欣赏从卡尔加里到Banff的延途风景,这里的司机都是有着几十年工作经验的老司机,热情周到。在要到达Banff时司机还特别要我们注意正在跨遇火车轨道的一头黑熊。到了旅程的终点,我拿着以前网上预订的YWCA的reservation去前台取了房间的钥匙,并告诉服务人员我的行李出了问题,我保暖的衣服都在里边,服务人员给我推荐了一个办法:喝一些酒,呵呵,真是谢谢他的好意。

2007年5月6日星期日

今天到北京了

今天早晨坐z62到了北京,研究生的同学开车来地铁出口接我,第一次看到了自己的护照、签证和机票。从北京到温哥华的国航航班是5月7日的下午15:00,开始以为是订错了,后来和MSN上的其它中国参会人员一联系,确认无误,心里很开心。在朋友的宿舍稍微安顿下之后,就独自一个人去逛街(同学忙着装修自己的新家),走几步路就到了西单,天气很热,加上五一黄金周,街上到处是如织的行人。自己来过几次北京,心中已经没有了新鲜的感觉。
明天就上飞机了,心中充满了无比的期待。

2007年5月4日星期五

我的blog搬家了

今天偶然浏览Windows Live Spaces的一篇博客文章时发现有人提到了Google提供的博客空间,自己第一反映是毫不迟疑地在这里占领自己新的web2.0领地.
使用了一段时间"百度空间",又看过了一些Windows Live Spaces上面的博客,觉得都不尽理想:

  1. "百度空间"过于"草根",时不时就有一些不到20岁的少男少女浏览过你的博客并留下他(她)们 博客的卡通图标;
  2. MS的博客空间一个最大的好处可能是和MSN的绑定,但我更喜欢能和我的Google帐户绑定在一起的工具;另外从MS历来的情况来看,估计Bug和安全性将是一个永恒的话题.

虽然是第一次使用Google提供的blog空间,但经验告诉我它将是我最明智的选择,这里有更先进的技术,虽然刚刚使用,但显然它大量使用了Ajax技术,这使得基于浏览器的"瘦客户端"应用程序能给予用户和基于本机桌面相近的用户体验.