最后一贴
鉴于Blogger网站经常被封,自己重新启用以前的百度空间:http://hi.baidu.com/xuqingyang/,本博客停止使用。
为什么分分秒秒都使我担惊受怕? 因为人生短暂,一日却悠长!
自己很喜欢阅读英语原版的计算机经典书籍,目前为止最喜欢的几本书籍包括:"Thinking in Java"、"Learning Perl"、"The Art of Unix Programming"。以前也接触过Richard Stevens的"Advanced Programming in the UNIX Environment"一书,是机械工业出版社的32开本的第一版,当时是因为去北京开会在北京图书大厦买到的,回来的火车上一个人翻了翻,因为要阅读Nalanda Focused Crawler开源代码,所以当时觉得有必要了解一些这方面的知识。现在经过两三年之后再来看最新修订的新版,有非常不同的感觉。可能因为对Perl语言掌握得比较熟练,现在看这本书感觉很多东西都很容易理解(同时也能间接地加深对Perl语言的理解),另外觉得自己在操作系统和Unix系统编程的知识方面自己有必要填补一下空白,所以几天前下决心把这本900多页的厚书吃透,没想到越看越喜欢,语言精炼简洁、论说清楚,几乎每一页都能学到很多。一时兴起,不知不觉已经学到了第4章,这很像自己以前读"Learning Perl"的感觉,因为没有把前面的章节完全吃透和动手实验,越看到后来感觉越吃力。自己当时学"Learning Perl"时反工了几遍,最后是把每一章后的习题认真上机通过之后才开始真正掌握了全书。今天下决心从头开始钻研APUE,并把自己学习的心得放到自己的Blog上面,欢迎志趣相近的读者留言与交流,特别的,我把自己读这本书时的疑问用蓝色显示出来,欢迎有人与我交流。
先说说拿到我手里的这本人民邮电出版社的英文原版书吧,它的开本让人感觉很舒服,但让人不解的是,既然是原版书,为什么把“序”和“前言”翻译了过来,自己还是喜欢全部原汁原味的。“序”是UNIX操作系统发明人之一Dennis Ritchie作的。我注意到他在“序”特别提到了Maurice Bach的“UNIX操作系统设计”一书,这本书在书的正文里也多次提到。不知道有没有人读过这本书,好象很经典?
然后是本书的修订者Stephen A. Rago的前言,这里面最重要的部分是他对第1版的改动有哪些,除了因为年代原因带来的更新(标准、UNIX变种)外,最主要是他增加了线程的章节。
在Richard Stevens对第一版的前言里提到这本书是作为UNIX Manual的补充出现的,所以在学习这本书的各个API时最好看一下它的man命令结果。另外他还提到“真正的UNIX书应该用troff写成,本书也遵循了这一优秀传统。最终清样是作者用James Clark写的groff软件包做出的”,我对这里面提到的软件包很感兴趣,因为这本书就可以作为这些软件包优秀的证明(也许将来我有写IT书的机会,我也可以考虑像Richard Stevens一样用它们,:)),有谁能告诉我它们到底是做什么用的?与LaTeX比较如何?
中文部分到此结束,正文终于开始了。
自从女友得到百度offer后,自己一直对和百度有关的报道很留意。昨天偶然看到一篇博客上的文章,无论身在何处,总有一种情感心牵百度——百度主任架构师周利民,里面有很多张百度前主任架构师周利民的照片,自己在2005年曾经去百度作过技术演示,当时他就坐在我的对面,是我的主要谈判对象,印象里他要比照片里的年轻很多,怎么也想不到仅仅三年时间人的面容能发生这么大的变化,我想,工作压力大、劳累很可能是促使他离开百度的重要原因。
另一件事情更让我吃惊,Google了一下“周利民”,发现一篇介绍他的网页里有这样一段话:
周利民是早期加入百度的核心技术人员之一,其个人著有《Unix系统网络编程》一书,至今依然是经典工具书。
上网一查,哪里是他的著作,不过是AUPS的作者Richard Stevens的经典之作“Unix System Network Programming"的第二译者而已(http://www.langlang.cc/ShowPrice.aspx/pid/1011297.html),书确实是经典,因为Richard Stevens的每本书几乎都是经典。
另一件类似的事情是百度的王湛生因为月底要去伦敦作关于百度的报告,网上便铺天盖地都是关于“百度要去开拓欧洲市场”的消息,真是有趣。
今天开始看Richard Stevens所著的经典的“Advanced Programming in the Unix Environment" 2005的最新版,用的是从aMule上下载的英文电子版,刚看完了第一章”UNIX System Overview",有一种从来没有过的感觉。C语言因为考研是我最早掌握的计算机语言,但如何在Unix环境下最大限度地发挥它的作用一直没有钻研过,今天读完了第一章,突然发现在Unix环境下用C编程原来可以这样地有趣,原来一本好的TextBook是如此重要。现在发现PERL语言其实很大程度上在模仿Unix下的API,这也是为什么PERL对没有Unix基础的初学者如此难学的原因。
题目叫“给5年前的自己的一封信”,我最感兴趣的是里面对计算机学习方面的感慨,摘录如下:
。。。
大学里,就不要费很多神学习C#,Delphi了,虽然这些让你做了很多小工具,很炫,很有成就感(因为在别人在在console的时候你就在dialog了),但是到最后你会发现工作后用的并不多,如果实在要学也没关系,最后对你找工作只会是有好处的,至少会在毕业的时候为你的简历增色不少,不过我更愿意你花更多的时间在操作系统、数据结构、C或者CPP上,不要以为他们很枯燥,不要认为 CUI就没有用,不要认为老师发的一本教材就够了,最后你会发现,这些认识都很肤浅,扎实的基本功比什么都重要。有空的时候,多学学unix,别老呆在 win上了,不要以为unix没有图形界面不好玩,因为你仅仅用了一次bsd就固化了这种思想而从来没去思考。不要以为unix很高深,装一个会很容易 的,自己动手就行了,因为你毕业后将完全在unix上工作了;不要去买
。。。
今天早晨终于在跑了五次中国银行、六次学校财务处之后把WWW大会的注册费650加元报销完毕,真是不容易,感觉比整个出国手续办起来都困难和繁琐,现在回想起来都后怕。特别是中国银行支行的服务态度极端恶劣,让自己白跑了至少两趟,如果像国外一样服务人性化一些,这些本来是可以避免的人力浪费。
从西安大路中国银行回来正打算把整个繁琐的报销程序在博客上写一篇文章的时候,自己的手机响了,是以前自己投送简历的中科院的项目负责人的电话,自己建议在MSN上聊,他说他们老板今天从美国回来了,对我的简历很感兴趣,问我这周能不能去北京面谈一下。这实在是有些让我感觉吃惊,最后商定趁去北京参加6月16日的YAPC2007大会期间和他老板见面,看来他们真的感觉找对人了。
下午去红旗街欧亚科技城买了一个非常小巧的mp3用来学英语之用,回来网上一查,它是爱国者新推出的俗称“麻将mp3”的低价位的新款。总体感觉不错,269元定价,但有1G容量,是内置的锂电池可以充电。以后自己会充分利用它提高自己的听力水平的。
明天是六一儿童节了,自己和妹妹约好去接张芳菲放小学,然后去沃尔玛给她买了儿童节礼物,然后我们一起去看开超市的妈妈,自从出国开会回来自己还是头一次看到妈妈,胖了一些,但精神还是很好,每天辛苦经营一个大算小的超市,还要做一日三餐,看着妈妈真是觉得她太辛苦了。
自己抱着试一试的态度打算到网上找找关于实习的信息,发现Google暑期实习已经结束了,而且实习生都要经过一次笔试和两轮面试,还要成绩单。自己最熟悉的编程语言可能是PERL了,所以自己在Google里输入了“perl实习”的字样,结果发现中科院计算所最近有一个招收perl实习生的广告,要求有三条:
今天听说研究生毕业设计检查代码时有人用到了我在实验室开放的源码。本来研究生毕业设计作假已经是公开的秘密,但自己辛苦写就的代码被这样无所顾忌地用在这样的场合,心里还是非常气愤。下面是我在实验室邮件列表发表的一则郑重声明:
自从自己在网上开放了自己的focused crawling源码后,在任意一台机器上布署一个focused crawler变成一件非常简单的事情,只要学学Linux基本操作就能让检查代码的老师无话可说。但我的focused crawler代码是遵照GPL开源协议的,它的最基本原则是使用该源码时的最终产品也必须是完全开源的,但作为研究生的毕业设计(程序代码是其中的重要一部分)是以签署保密协议为前提的(每个人在自己的毕业论文前面都有这样的声明),因而不能使用开源软件,包括我的源码,除非事先争得作者的授权。另外,作为吉林大学的一名老师,自己有义务防止毕业设计里的作弊行为,特别是在自己工作基础上的作弊,所以本实验室成员以后如果有人在毕业设计里需要用到我的源码,请事先争得我的同意和授权,如果在检查代码时发现其代码与我的重复程度超过50%,自己保留检举揭发的权力.
除去毕业设计之外的研究和发表活动不在上述声明范围之内,这时我的代码可以随意使用,实验数据无论怎么作假都可以,但请想一想这样的研究工作有什么样的意义!
昨天是周日,花了一天时间做了两件事:
自己参加WWW大会有很多的心得,有意想不到的收获和惊喜,也有很多的遗憾,现总结一二,为以后留作参考:
到昨天为止把13个类别下的两种focused crawling方法实验做完了,Soumen Chakrabarti的accelerated focused crawler效果比best first好不了太多,分析了一下原因,link context的嗓音过大是主要原因,另外他的方法加入了位置信息后过于高维稀疏,容易导致overfitting.
今天正式开始验证自己的算法first-order focused crawler,比较费时,而且需要人工参与调参,但效果确实有极为明显的改善。打算先作precison即harvest ratio方面的比较实验,以后再作recall方面的,当然这种recall只能是近似和粗糙的。
不知为什么,自从参加了WWW2007大会后反而对研究渐渐失去了兴趣和热情,就连WWW大会的很多论文也仅仅具有理论的价值而已,特别是那些为了论文而论文的行为尤其让自己感动厌倦,国内幼稚的评价体系也让人无奈。自己现在只想把现有的工作做完,用真实的实验数据发表一篇能令自己满意的论文。
我现在惟一的目的是想证明一下即使在自己所在的学校,凭借真实的工作获得学位也是可能的,:(。
标签: 进度, 实验, focused crawling
因为有自己学校的邮箱,自己平时的Gmail邮箱基本很少使用,今天不经意间发现了Gmail的一项新功能,就是它支持与本机文件系统的上传、下载,你可以把自己的Gmail邮箱当成一个ftp服务器来使用。这项功能对我尤其实用,自己经常在家里的机器上下载大量的网页数据,有时需要把它带到学校机器上处理,以前都是用光盘刻录的,一则有容量大小限制,二则一旦完成了数据载体的使用,我就把它扔进了垃圾箱,浪费钱财和资源。现在自己终于有了一个非常理想的2G容量的“网络硬盘”。
使用Gmail的ftp功能需要在FireFox浏览器上安装一个叫Gspace的插件(安装见http://www.getgspace.com/download.html),使用起来极为方便,选择Tools->Gspace,就可以使用Gspace的Web界面了,下面是我在使用Gmail上传本机文件时的屏幕截图,怎么样,看起来是不是和各种ftp软件界面很相似啊?
除了文件传输,它还有照片管理等其它功能,这留待自己在以后去慢慢发现。
自己为参加WWW2007投入了很多的时间和精力,当它已经完全成为了回忆的时候,现在已经是5月的下旬了,7月份自己的生活将发生重大变化,新的机遇和挑战可能再不允许自己有现在这样从容写博客的机会了。的确,现在真的是一个制定计划的好时机,虽然只能持续1个月多的时间。
自己制定的计划如下:
最近从网上了解到最主要的blog发布平台是两个:一个是我正在用的Blogger,另一个是WordPress.两者很像Windows和Linux的差别,前者更易新手入门,但后者的功能更强大.另外blogger好象还经常被国内封掉.看了其他人的blog,发现有很多自己的Blogger系统不明确支持的功能,比如日历、最新评论、点击统计等等。以前用过的百度空间就有一个很好的"统计分析"功能,可以明确地显示出自己的博客文章是如何被别人发现并点击的。后来网上看到其实极大多数功能都可以通过各种hack手段来弥补,特别是利用Blogger可以直接修改HTML代码的功能加入各种widget,现在终于明白了web2.0为什么是连Tim Berners-Lee都无法否认的巨大成功了。
自己在看了很多人的博客后,通过hack方式为自己的博客加入了以下几个功能,它们都已经在自己的博客页面右侧显示了出来:
我是研究Focused Crawling的,Soumen Chakrabarti在www2002年提出的accelerated focused crawler是多年来一直无法逾越的高峰(很大部分原因是他后来转到别的研究方向去了,:)),特别是他提供了开源的软件包Nalanda Focused Crawler可以参考,自己当然会对其进行仔细研究,自己今年寒假仔细地阅读了其源码,发现在他最核心的算法实现中有着非常多的严重的bug,我向iVia开源组件提交了bug,很快得到了回应,还把自己在www2007的关于focused crawling的poster论文要了去。今天偶然看到最新的unstable版本已经改正了我提出的bug,在它的CHANGELOG(http://ivia.ucr.edu/download/files/Nalanda_iVia_Crawler-2.4.0.changelog)里特别提到了我的贡献,这让我非常开心和有成就感:
------------------------------------------------------------------------
r30608 | vanderp | 2007-03-14 10:10:50 -0700 (Wed, 14 Mar 2007) | 1 line
Changed paths:
M /trunk/Nalanda_iVia_Crawler/src/focused_crawler/FocusMeta.cc
More bugfixes suggested by our friend PHd in China.
------------------------------------------------------------------------
标签: bugfixes, Nalanda, open source
今年www大会共有15篇第一作者是中国人的长论文,在所有注册的代表数量方面,中国也排在了美国、加拿大和英国后面居第四位。这很让人想起奥林匹克运动会的中国队的历史。微软亚洲研究院长沈向阳还在他的博客上发出像征服奥林匹克一样向世界顶级计算机国际会议进军的口号。MSAR也确实远远走在了中国大陆高校研究机构的前面,每年像WWW和SIGIR这样的顶级会议都收获颇丰。令人欣喜的是,这次WWW大会也出现了两篇完全本土化的论文,一篇是北京大学裘宗燕老先生的关于Web service的论文,另一篇是东南大学XOBJECT研究组张祥博士的一篇论文,是关于semantic Web的. 粗略看了一下这两篇文章所在研究组的发表纪录,也都有长期国际化发表的历史。特别是东南大学的XOBJECT研究组,他们导师以身作则每年在WWW或ISWC这样和semantic Web相关的顶级会议上发一篇文章。其它的来自中国的论文多数是来自微软、IBM的intern,在这些国际化的机构里面显然有着国内高校无法比拟的优势。上海交大的apex研究组这次带来了四篇长论文,有的甚至仅仅是大四的学生,看了一下他们的论文,都是研究Web2.0这样最新前沿的工作,其实他们未必在个人素质方面超得过北大、清华这些学校的学生,但因为他们身处于一个放眼国际视野而不是SCI的标准的环境,再加上有大量与国外合作的机会,却能取得骄人的战绩。开会回来的路上认识了一个中科院计算所的主任,他提到现在国内高校的科研评价指标确实极不合理,但没有人短时间内拿出一个solution出来。像我认识的那个印度学生Sen甚至从来没听说什么是SCI,当我详细地把国内采用的评价体系向他解释的时候,他只说了句“It shot my heart”。一次lunch时间我和微软的一个研究员聊了一会儿,他对国内高校评价体系不与国际接轨给出的解释是“如果接轨,会触及很多人的既得利益”。
自己在参加WI2004国际会议时认识了一个北京大学李晓明实验室的博士,他说他们导师现在已经开始把自己实验室的标准与国际标准看齐,不在像WWW这样顶级会议上发表论文甚至拿不到博士学位,但他们与微软亚洲研究院以发paper为主不同的是,他们要完成大量的实际开发项目,有的学生毕业出来就可以直接去创业,但在顶级会议的发表方面依然乏善可陈。他特别提到一次微软亚洲研究院的一个研究员在与他们实验室进行交流的时候,不免得意地说他们MSAR在发论文发面有自己的“秘诀”。他对MSAR的一些论文的评价也不高,认为没有多少实际意义,仅是为了paper而paper。不仅是他一个人有如此看法。另外像SIGIR会议他们的小圈子习气也非常浓重,有的第一年发过论文第二年就可以当会议的评委。
虽然有了足够多数量的论文,我的观察是中国在WWW大会里仍然是一名羞怯的客人,真正创新性的思想主要还是来自于欧美的著名高校或研究机构里。除了极少数论文作者之外,绝大多数都存在着某种程度上的英语方面的障碍,在聚会时,也多数是中国人与中国人聊,不能产生最大限度的学术影响力。这只中国大军还需要进一步增强自己的实力,而不是把心思过多地放在国人擅长的投机和钻营上。
Banff是加拿大著名的国家森林公园,位于加拿大的西南角,据说以前朱镕基总理去加拿大访问时特意冒雨去Banff一游.这里是一个典型的旅游城市,整个城市只有一条主要街道Banff Avenue,数不清的大小旅馆就在这条街的两旁,城市的当地人口比外地的旅游人口要少得多.这里一个非常奇特的景象是它有一个非常长的daytime,仔细看看旁边照片里的大钟,已经是晚上7点了但太阳还老高老高.真正完全天黑要等到晚上九点之后.
这里有数不清的gift商店,但多数的衣服和工艺品都是made in China的.很多商店是日本人或给日本人开的,街上的日本游客也特别得多.店里的服务员会对每个顾客先问候一声,这让来自大陆的我感觉很不习惯.这里的1加元在当地的购买能力大致相当于1元人民币在国内,比如这里的矿泉水大约1.5加元左右,T恤大约10到20加元.自己临走之前特别买了一件T恤,当时以为是当地产的,还特意向售货员确认了一下,没想到回来后仔细一看还是Made in China的,呵呵。这里有中国餐馆但是非常之贵,自己实在饿极就去这里惟一的一家"卖当劳"里买个1.79加元的snack wrap吃吃.后来我在YWCA的免费读物里还知道这个城里每周三都有定点的免费食物.
5月9日是www2007正式大会的第一天,特别是上午从8:00到10:00有World Wide Web创始人兼Semantic Web的提出者Tim Berners-Lee的报告会是一场重头戏。我和Sen很早就出发但还是发现来晚了,会议大厅里已经坐满了各个国家、各种年龄和各种身份的参会者。大厅前半部分有桌子,可供带有笔记本的代表使用免费的wireless网。自己好不容易找到个最后排的椅子坐好,大会便开始了。先是在大屏幕上播放了历届大会的logo的动画演示,基本上www大会是一年美洲、一年欧洲、一年亚洲举办的。然后会议组织者介绍了一下本次会议的大体情况,特别有趣的一件事情是本次会议绝大多数论文的提交时间都是在Dealine的最后几个小时,直到最后一天投稿量都少得可怜,这让会议组织者一度非常worried。这也间接地显示了这个会议的级别,绝大多数投稿都是精雕细琢的用心之作。去年这个会议的录取
比率仅为10%多一些,今年多收录了20%的论文,但最终的录取率也不足15%。大名鼎鼎的WWW之父Tim Berners-Lee终于登场了。他的演讲题目叫“The Two Magics of Web Science”,仅看题目便可以猜出个大概,这两个Magics应该一个是他提出的Semantic Web,一个是他以前不愿承认但现在已经无法忽视的Web2.0。Tim已经不年轻了,但他说话很快,充满了激情,有的时候动作夸张到像在戏剧表演。他还在现场进行了一次调查,先让参加过连续两届www大会的代表举手,然后三届、四届,会场上举手的代表越来越少,最后全部参加的举手的就只剩下Tim一个人,显然这给予了他很大的精神满足。
自己在他还没有完全讲完的时候就提前去了外面,因为自己没有吃早餐,正好每天上午10左右会提供各种食物和饮料,除了各种饼干和coffee,有时会有我很喜欢的大个草莓供应,一个草莓大小抵得上一个桃子。
Tim讲完之后正式的presentation便在各个分会场同时并行举行了,我感兴趣的主题也恰是www大会最核心的永恒主题:Web Search和Data Mining,一直到会议的最后一天都有这两个session举行。而像北大的裘老师是研究web service的,只在最后一天才能找到感兴趣的session。等我兴匆匆地赶往Alberta大厅时,已经有很多人占据了座位,有的人直接坐到了铺有地毯的地上。今天我感兴趣的session都在这里举行,一天都是关于Search的。上午是Search Potpourri,下午是Crawlers和Web Graphs。这里面要讨论的论文自己以前都仔细看过,很遗憾今年和自己研究的小领域特别相关的论文非常之少。
在我到达时Search Potpourri的第一篇论文“Navigation-Aided Retrieval"的presentation已经开始了,像很多论文一样,这次的presenter也不是论文的第一作者,而是Yahoo!研究组的有名的Christopher Olston,这是一篇非常有新意同时也很有趣的论文,有很多人提问,特别是来自百度的威廉张格外踊跃,在旁边的照片里最右边穿白色衬衫的那位就是那位老兄。在随后几天的会议之中,他一直是我见到的听讲最积极活跃的人物。第二篇论文"Efficient Search Engine Measurements"是在www2006的最佳论文基础上的进一步工作,作者是原班人马,这次主要是大大提高了速度。它的第一作者算是这个领域的一个牛人,个子很矮小却给人很冷酷和咄咄逼人的感觉。顺便说一句,web研究领域很多牛人都非常矮小,包括后来出现的Bing Liu。这让我得出一个结论,看研究者个人主页照片时一定要有所保留,因为照片里无法显示他真实的身高情况。虽然论文是非常好的工作,研究的是如何通过各个主要搜索引擎的接口对其索引的网页数量进行探测。演讲者是第一作者的某个学生,台上很放不开。第三篇论文“Efficient Search in Large Textual Collections with Redundancy"是上午惟一一个第一作者的presenter,是国外大学的华人学生,英语明显有待提高但显然经过精心准备,这篇论文也是一篇best student award的candidate论文,可能因为作者的精心打造,这篇论文最终获得了最佳学生论文奖。它的idea其实实在是简单到不能再简单,自己一直很奇怪为什么它会得到这么大的关注。显然威廉张对这篇论文很兴奋,中午lunch时也能听到他不断重复着”interesting、interesting"字眼。
吃完了lunch,开始了Crawlers的小session,它也是我可能整个会议里最相关的工作。第一篇论文“The Discoverability of the Web"同样来自Yahoo!研究组,第一作者很瘦小,特别是英语发音非常令人奇怪。第二篇和第三篇都是来自犹他州立大学的同一个作者,分别是关于Deep Web的发现和分类的。说实在话,他的工作并不是很让我佩服,后来休息时我直接走向他的跟前和他交流了几句,他承认他的工作不过是在Context Graph基础上加入了online学习的功能,并对link进行了细粒度的刻划而已。但他显然做了很多工作,特别是每个Form分类器的正例都是手工采集的,这需要非常大量的人工劳动。晚上有个Reception我看见他和同样十分瘦小的女导师一起走过,我还和他打了招呼。他的mentor和他有非常相近的气质,都极为严谨和清矍。看见这样两个极为瘦小但坚定的师徒二人匆匆和你擦肩而过,会给人一种非常奇怪的感觉。
下午最后一个小session是Web Graphs,第一篇论文“Random Web Crawls"是一篇来自法国的论文,一个很胖操着明显法国口音英文的学生很放松得进行着陈述。第二篇论文”Extraction and Classification of Dense Communities in the Web"是一篇关于Web Communities的自动发现的论文,比前人大大前进了一步,演讲者是第一作者的导师,是一个意大利人,一个非常幽默的老头,也是惟一能用演讲把听众逗乐的一位,说实话,我很喜欢这个老头。第三篇论文“Web Projections: Learning from Contextual Subgraphs of the Web"的演讲者是来自CMU的非常年轻的小伙子,年轻到你能想象到他作完演讲就可能上街去玩滑板去了。因为是来自CMU的,很容易想象一定是关于Machine Learning的论文,但它的立意非常新颖,新颖到你不想去关注它在实际中到底有多大的用处。
正式会议的第一天结束了,像几乎所有会议一样,第一天的presentation得到最多听众的关注和呼应,所以如果以后论文被安排在会议的最后一天,你几乎不用为提问作准备,因为听众大部分或者已经打道回府了,或者去外面游玩去了。
自己几乎是在最后的时刻才决定去 Banff的,网上找遍Banff的大小旅馆发现开会时间基本预订完毕,最后发现在Banff有四家hostel,即青年旅馆,很像大学生宿舍里的一张床位,价格非常便宜,每晚上只需30加元不到。自己仔细对四家进行权衡之后在网上预订了YWCA,它也是离会场所在旅馆最近的一家,步行10分钟左右即到,但它不提供free的breakfast。自己打开自己房间门的时候,发现有一个典型的醉鬼躺在椅子上就睡着了,地上满是酒瓶,床上开着广播放着摇滚乐。自己的房间的位置也很糟糕。Common kitchen就在自己的房门外边,即使到了深夜还有人大声地说笑(而且是我听不太懂的说笑),而Banff这里因为海拔的原因,晚上到了9点太阳还没落山。自己这才发现自己当初真是做了一个非常错误的决定。我躺在自己的床上,虽然非常疲乏却不能入睡,心里充满了忐忑和不安。一会醉鬼醒过来了,和我聊了几句,我借故说自己想早些睡觉才把他打发走。自己躺了一会后打算来个“主动出击”,不再被动地受罪而是主动与人交流,虽然语言能力极为有限。一会终于有一个清醒的室友回来了,我主动和他打了招呼开聊。他听说我是Chinese后卷起衣服给我看他全身的纹身,里面有中国古代美女的图案。他说他很喜欢中国文化,于是我告诉他中国文化是多么地特殊,他说他会四门语言,还自吹他的“brain is very fast”,于是我告诉他中文是多么地复杂和不同。显然我赢得了他的友谊,我甚至答应他以后去北京看奥运会时可以直接来找我。他很豪爽地和我分享他的各种食物,但我对他的苞米花实在是不感兴趣。虽然可以与人交流,自己还是苦于找不到同类。身边人说话里最常用的词汇不外乎girl和drink. 过了一会儿,一个戴着黑色眼镜的印度人带着大包小裹地走了进来,我心中一阵狂喜,因为我有非常可靠的直觉告诉我他是和我参加同一会议的同路人。经过询问之后,我得知他不仅是参加会议的,而且是一篇长论文的作者,虽然他的领域是我不甚了解的wireless web。我我很高兴有和
这样一个优秀的人作朋友的机会,虽然我很快便发现他的英语发音非常不标准,有时连morning这样的单词都听不懂。他的名字叫Sayandeep Sen,我的中文名字发音对他来说太难了,怎么也发不对,后来索性放弃了.他和我聊了几句后就去给家人打电话去了,回来后我们约好第二天一起步行参加会议。我在Banff的第一个晚上就这样地过去了。我身上只有一件夹克和短袖的衬衫,晚上有时我会无比地想念不知身在何处的托运行李里的厚实的衣服。
第二天我们决定一起换个更加安静的房间,它就在原来房间的隔壁,但在我们一起在Banff住宿的几天里,几乎只有我们两个人独享这个房间,有时会有人在晚上入住,但第二天就卷铺盖checkout了。
5月8日早晨我们一起出发向www2007会场所在地Fairmount Spring Hotel走去.我们的YWCA真是离会场太近了,其它的大旅馆都在过了河的downtown,只有YWCA是和Spring Hotel同在河南岸.10分钟的时间就走到了会场,首先要做的事是领取了registration的receipt和一个背包,但里面没有proceeding,因为www大会的proceeding都是网上随意下载的.我现在才知道即使你不交registration费用也不会影响你的论文收入proceeding.另外虽然registration是按天进行的,这里实际上也从来没有人检查你的挂牌上的时间,像很多国外的事情一样,很多事情全靠自觉.我和一个来自卡尔加里大学的volunteer聊了一会儿,他以前是来自中国大陆的,他用汉语告诉我关于Banff的历史,说Banff的历史不到200年,最开始就是因为有人在Spring Hotel的地址发现了温泉才开始建城的.在Spring Hotel的中心广场就是这个最先发现温泉的人的雕像,手的指向显然是温泉泉眼所在地.后来当我告诉Sen这个城市有200年的历史,我们都相视一笑,无论在中国还是印度,这样的历史都实在是太短了,:).
5月8日主要是workshop和tutorial,所以来的人相对以后正式开会的日子少得多.会场专门设立了可以免费高速上网的internet cafe,我很想给家人和女友网上发封电子邮件,于是坐在一台电脑前面.所有的操作系统都是英文的windows XP,由于我的笔记本电脑在托运行李里,自己甚至无法用中文阅读和输入.几个同来的大陆同伴也苦于无法阅读中文,还是自己最先通过下载字体的方法解决了看中文的问题,自己终于看到了女友给我发来的电子邮件,自己又安装了Google的拼音输入法,给她回了一封很短的邮件.下午有一个Soumen Chakrabarti的tutorial,自己告诉Sen他是我的idol,我们便及早去占了座位.中午的自助餐让我们俩个频频摇头,真是糟糕透了,我们尽量拿它填饱肚子,这样早晨就不用在YWCA吃付费的早餐了.下午我们等来了Soumen的到来,正在我开始打瞌睡的时候,坐在旁边的Sen捅了我一下,告诉我那个又瘦又高的大学生模样的就是Soumen,想不到他竟然如此之年轻,在印度人里边算是很英俊的,有一双深思的大眼睛.他看起来精力充沛,举止轻快,讲话速度极快,只可惜他讲的是我不太感兴趣的learning to rank的话题,通篇是大量的数学公式但很少有具体的实例,整个会场上似乎人也不多.是对他个人的崇敬之情让我强忍住困意听完了第一部分.然后我们就一起出来.很快我在人群里发现一个留着山羊胡子的人,很像百度的新任首席科学家威廉张.这样一个在国内大名鼎鼎的人物在www大会会场上似乎并不引人注目,于是我上前和他打招呼,显然我是第一个认出他真实身份的人,如果不是在www大会上而是在北京,不知道我还有没有和他聊天的机会.他给我了一张名片,告诉我回国内后给他发邮件联系一下.后来我在网上查到他在美国长大,毕业于哈佛大学的数学学院.
第一天的www大会结束之后我和Sen一起回到YWCA,让我高兴的是我的行李终于送来了,我打开自己的笔记本电脑,发现完好无损,但是一个新的问题出现了,我的插头无法插入国外的插座里,必须有专用的adapter才行.但我终于有暖和的衣服穿了,最重要的是心里的一块石头落了地.5月9日是正式开会的第一天,早晨是WWW之父Tim Berners-Lee的讲座,明天会是什么样的一天呢?
标签: Chakrabarti, registration, www2007
自己现在在自己熟悉的家里用熟悉的文字写着博客,突然感觉十几天的异国之旅已经显得那么地遥远.数不清的新鲜的人和事每天都在刺激着自己的神经,现在自己的第一反映却是异常的平静和麻木.
从踏上北京西单去首都机场的大巴的那一刻起,自己开始了独立一个人的旅行.由于第一次坐飞机没有经验,安检时自己的刮胡刀片被没收了.以前在网上看到国航对随身行李有大小和重量限制,所以没在随身包里放太多东西,自己的笔记本电脑和主要衣服都放在托运行李里.进入了候机室里自己很快和以前网上联系过的几个国内高校同去参加会议的人用手机联系上了.上海交大有三个学生以长论文作者身份参加这次会议,自己和其中的李睿聊了一会,了解了关于他们上海交大apex实验室和实验班的一些事情.自己上飞机时要了一个靠窗的位置,恰好在机翼附近.飞机里禁止带食物和水,所以接下来近11个小时的旅程里饮食由飞机上统一安排.时不时会有漂亮的空姐问你要哪种饮料甚至各种小零食,但正餐只有两次,一次是在起飞之后,一次在着陆之前.飞机从北京到加拿大的温哥华,据说那里是华人最多的加拿大城市.飞机上绝大多数是华人,虽然有些显然是以英语为主要语言的加拿大国籍的.飞机候机室里就有非常年轻的青年看着英文的原版书,我注意了一下书名,是斯坦贝克的《人鼠之间》.飞机上旁边座位坐的是飞机上极少数的外国人,显然是一对刚刚结束中国旅行的老年夫妇,飞行期间很多时间都花在仔细把玩冲洗出来的一大叠照片,仔细注意了一下,很多照片拍的是极普通的国内乡村田间地头的景色,如果不是老外,国人是绝不会把它们作为拍照的题材的,:)。坐飞机只有在起飞和降落的短暂时刻是看窗外的好时机,因为其它绝大多数时间飞机都在云层的上面,白色的云朵是窗外永恒的景色。虽然窗外很单调,自己却无心把已经准备好的书籍打开来看。旁边明显有飞行经验的人很快就开始为倒时差为准备,努力开始睡眠,但自己却兴奋地无法入睡。这个飞机上有多少是和自己同路去Banff开会的?到了温哥华如何办理入关手续?如何接受入关时英语的盘查?虽然只有几个小时的黑夜,自己却心中忐忑,无心睡眠。飞机上放着老掉牙的电影录像--"洛奇",由于无事可做又睡不着,自己竟然把它完整地看了一遍以打发时间。
快到温哥华的时候短暂的黑夜终于过去了,这时候时差效应开始发挥作用了,自己感到无比的困乏。飞机上的第二顿正餐开始了,这次盘里多了一样红色片状食物,看起来很像生鱼肉片,后来自己才知道这是温哥华有名的三纹鱼片。自己很偶然地问起坐在自己旁边的女士这是什么食物,没想到不经意的交谈改变了以后的行程。她不仅是同去Banff参加www2007的同路者,而且是W3C组织中国分会的成员之一,很快坐在我们前边的一位头发花白的老先生也回过头来,说他也是参加这个会议的,我突然记得在"C++ Programming Language"中译本的作者照片里就是他本人,是这次www大会上完全国内本土的长论文作者之一的北京大学的裘宗燕老师。他说他也加入过我开设的www2007与中国的google论坛,但里面贴子实在是太少。后来老先生因为时差开始进入睡眠,自己开始和旁边的女士直到下飞机一直聊个不停。她是w3c组织中国分会的成员,主要负责各种公关事务,包括这次www2007大会上www2008中国展位的设计等等。因为平时经常出国参加w3c活动,她有着丰富的出国旅行经验和足够的英语交流能力。但她本人并不是计算机专业出身,所以问了我很多非常常识性的问题,包括什么是semantic web等等。自己非常庆幸有这样一个有着丰富旅行经验的
同伴同行,显然她也很高兴有人结伴同行。
事情,但在当时对我心情的打击是可想可知的,不仅我的笔记本电脑在托运行李里,除了我随身穿的衣服之外,所有保暖的衣物全在那里。由于心情的极度郁闷自己甚至无心好好欣赏从卡尔加里到Banff的延途风景,这里的司机都是有着几十年工作经验的老司机,热情周到。在要到达Banff时司机还特别要我们注意正在跨遇火车轨道的一头黑熊。到了旅程的终点,我拿着以前网上预订的YWCA的reservation去前台取了房间的钥匙,并告诉服务人员我的行李出了问题,我保暖的衣服都在里边,服务人员给我推荐了一个办法:喝一些酒,呵呵,真是谢谢他的好意。今天偶然浏览Windows Live Spaces的一篇博客文章时发现有人提到了Google提供的博客空间,自己第一反映是毫不迟疑地在这里占领自己新的web2.0领地.
使用了一段时间"百度空间",又看过了一些Windows Live Spaces上面的博客,觉得都不尽理想: