MSRA “明日之星”项目实习中期总结

一段奇妙的经历

Posted by Tony Feng on May 9, 2021

前言

在写这篇博客之前,我删掉了之前一些凑数的文章(有些学术垃圾太羞耻了,手动狗头),希望我以后能坚持写一些有意义,或者能留作回忆的东西。由于刚过了五一(和爸妈度过了难忘的三天,好久没那么开心了),事情不算很多,这两天推公式又推得有些头晕脑胀,我想写作会是一个不错的精神放松。总体而言,我目前为止在微软亚洲研究院的体验实在是有些奇妙,无论是我的 mentor 陈卫老师,还是微软的工作环境,都非常的 nice。不过因为同期学校的事情比较多,自己又参加了一些课外活动,项目的推进一直不算快,所以直到现在才积累了足够写中期总结的素材。本文将尽可能按照时间顺序记录我的感受留作回忆。

入职经过

入职前的一些事情

能加入微软对于我而言完全就是机缘巧合,后来看来原因大约有三个。第一就是于洋老师在 Causal and Statistical Learning 课上不断强调要尽早找实验室,不得不说,他是我来到清华以来见过的最认真负责的老师,在大一下几乎充当了我们班主任的角色。值得一提的是,他在课上还推荐过我在 MSRA 的 mentor 陈卫老师。第二个原因是那个学期我有三个月因为身处疫情中心不敢出门,闲暇时间就逛各种留学论坛,特别是一亩三分地,看到大佬们都有两三段实习或者科研经历,因此觉得越早开始越好。第三个原因是我在家里的学习效率的确远远高于在学校(那个学期修到了32学分,绩点竟然还变高了),我在期末周甚至还抽空仔细研究了一遍了我们院的老师,大概扫了一遍他们的论文代表作,把计入门的课件拿出来也重新学了一遍。其中看到陈卫老师的课件的时候,我发现其中一个部分(利用次模性证明贪心算法的下界)竟然是2018年国集的考试题,当时我觉得我的数竞经历可能会在 Social Network 这个领域有一些帮助,因此直接发邮件给了老师。 现在看来,那封邮件也是挺稚嫩的,不过确实是吸引了老师的注意。

联系上之后,老师和我聊了几次,就让我读《大数据网络传播模型和算法》这本书(作者就是他)以及 multi-bandit algorithm 的一些基本结论。我用了一个暑假读完了前者和后者的前一半,还写了几篇几十页的笔记(有时间就是好啊),发给了老师,约好了开学之后再当面聊。那一年暑假,我还做了一个社会实践,受到初中同学的邀请,加入了人文学院一个除了我以外全是女生的支队(最后还拿了学校的银奖),玩的很开心,或许这就是我没能看完 multi-bandit 的原因吧(再次手动狗头)。

九月份开学之后,我跟陈卫老师在研究院当面聊了一次,当时还是挺紧张的,我当时做了充足的准备,也表达了我对几个未解决问题的看法(不过实在是毫无思路,我太菜了)。最后老师说,既然你上个学期 causal 学的不错,我最近也想了解一些这方面的问题,那你回去想想能不能把几个 Social Network Model 和 Causal 结合起来吧(我猜可能是老师觉得我还不足以短期做出来成熟的问题,还是挖坑自己填比较简单)。

到了十月份,老师就给我发了邮件,说他需要一个实习生,问我想不想接受。我当然毫不犹豫的接受了 offer,其实完全没有想到我会受到如此的重视(后来在一些活动上,老师说带学生是微软和清华校友回馈社会的一种责任,敬佩)。

入职手续

不得不说,手续办起来还是挺麻烦的,光找李导签字前前后后就找了三次,真是辛苦他亲自上门签字了。我办入职手续恰好是十月底的期中考试周,这导致我本该复习的那一周计划被打乱了,办银行卡、参加各种入职培训等琐事很不幸恰好堆积在了期中周。我甚至还做出了一边在英语课上回答问题一边听 MSRA IT 的小姐姐讲注意事项的事情。期中考试不太意外的不尽如人意,算法设计更是考出了57/100的低分(期末也无力回天,拿了3.0),最后怕没时间学,我就退了物理和机器学习(袁洋老师的机器学习考的其实不差,我对不起老师了)。此外陈卫老师跟我说,微软这边实习的考勤比较灵活,要我不要担心时间的问题。

初识科研

于是,我们就先开始做了有关 identifiability 的一些 survey。我那个学期将 Judea Pearl 关于 identifiability 的论文几乎从头到尾读了一遍,大概有三四篇比较重要的。将这几篇论文以及其中的一些概念完全弄清楚(经常有很多名词在不同的论文里有不同的意思),已经过去一个月了。我当时觉得似乎像 Judea Pearl 这种图灵奖的大牛,论文也会写出很多问题,证明经常跳步。现在等到我自己执笔的时候,我才发现,原来数学语言和自然语言都这么的无力,有些推导太难严格的写清楚了,甚至写着写着还会发现证明是错的。

等到12月份,我们已经基本上明确了需要研究的问题就是 IC model 当中参数的 identifiability 问题,实习的形式基本上就是我每周四下午将我一周里面产生的想法给老师讲述一遍。这个问题到了今年三月份,大概有了一些初步的结论,这三个月我也确实尝试了大量的方法,最后能得到这些部分结论我感觉以我自己已经很难改进了。我感觉这个过程确实和之前孙天成学长在《从零道一》 podcast 中所说的一样,科研就是不确定性很大,有时候前三个月所做的工作好像都没什么用,只有最后三天的工作是有意义的。然而实际上,前三个月是试错的代价,只有踩过了坑才不会再踩进去。

陈卫老师和我目前打算投今年的 nips(离ddl还有三周,希望我们好运),尽管我对此信心不多,毕竟我的结论实在没有太强的说服力,但我想这可能也会是试错的经历。论文写作的过程中,老师几乎是一句一句的改,看到改完的部分,再看看我写的部分,实在是惭愧,看来我27的托福写作一定是考官瞎了或者我的作文是评分的 ml 模型的 adversarial attack。这篇 blog 日后肯定还会有更新的。当然,结果怎么样就不一定了(2021.7.12,有个结论出了点问题,放弃了,最后投了一个小会)。

说到试错,我在今年上半学期还有一个收获,那就是科创。从中我学到的是,我不适合也不喜欢做科创。我们做的项目是一个类似于离合器的东西,是用在轮毂电机上的,整个过程可以说是槽点满满,心累身体也累,不过也算是圆了儿时一个梦想(小时候喜欢汽车,总想着要造车)。最后这个项目在学长和几个强大的队友的帮助下,竟然是拿到了学校挑战杯的特奖,我一个二作最大的贡献仅仅是一个只正常工作了半天的电控系统,可以说是很幸运了。这件事告一段落之后,我估计我再也不会碰机械结构,乃至硬件了,实在是不擅长。挑战杯也占用了大量的时间,导致期中考试发挥也仅仅是可以接受(时间都去哪了,啥都没得到就快大三了)。

社交活动

我在 MSRA 的社交活动实在是屈指可数,感觉大学两年已经把我变得内敛且寡言了。其实我还挺想和陈卫老师聊聊足球了,他父亲是传奇国脚陈成达老先生,他本人也是清华校队队长,然而他是真的很忙,唯一一次聊到这个还是他把组里面另一个实习生钟涵学长引荐给我的时候。钟涵学长是中科大数学系毕业的,这让我不禁想到,如果我当初去的是北大数院,又会是怎样的经历?或许也会加入 CS theory 的大军吧。

唯一一次让我印象比较深刻的活动是微软举办的清华校友论坛,我的 mentor 也参加了。听前辈们讲他们的经历,我感觉老一辈清华人身上确实有一些和我们不同的东西,他们比我们更能静下心来做事情,也更有毅力,更重要的是,他们把清华看成是他们生命里最重要的一部分之一,真真切切的在履行自强不息,厚德载物的校训。现在的清华,好像多了一些浮躁,少了一些归属感,并不像他们描述的那样美好,可能这也是发展的代价吧。微软的清华人之间,也是比较友好的,我和周围一圈人都互加了微信,聊了聊近况。在听到陈卫老师发言时提到我是姚班的学生之后,我眼中的“名人”高欣欣竟然还主动加了我的微信,姚班的 title 的确是一个巨大的优势。最后附上合影。

总结

由于实习的经历还没有结束,现在总结仍然为时过早了,在更新这篇 blog 之前,我只是希望能有一个不错的结果(立下一个 flag,写完这个博客,我鸽了我就是小丑)。


icon >