近日,一份百度创始人李彦宏早年间发表于国际权威学术期刊PAMI的论文在国内计算机工程师中悄然流传。据本报记者调查显示,这篇1996年发表的论文主要聚焦于OCR(光学字识别)模型选择和集成问题,成文于1993年李彦宏就读研究生期间。
IEEE PAMI,全称“IEEE Transactions on Pattern Analysis and Machine Intelligence”,世界计算机视觉和模式识别领域顶尖期刊。在PAMI上发表论文至今仍被作为博士后选拔的衡量指标。李彦宏能以硕士研究生身份完成这样“不可能的任务”,让已经习惯了他企业家身份的人们感到惊讶。
1993年5月,当时还在布法罗大学念研究生的李彦宏进入位于普林斯顿的松下信息技术研究所兼职实习,期间他涉及了OCR并革新了算法,获得了研究所的重视,8月底,当李彦宏结束兼职回校时,松下决定破例继续聘用他,并允许他无需上班,可以在学校里做研究。后来的一次国际性学术会议上,李彦宏发布了这个研究成果,并在PAMI上发表这篇题为《光学字符识别图像缺陷的验证》的论文。
1994年,李彦宏放弃博士入学资格,进入道琼斯公司旗下IDD信息服务部门的加里软件公司工作,并在美国电气与电子工程师学会的期刊上发表了名为《关于定性搜索引擎》的论文,也是在这时,李彦宏发现“科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用。”李彦宏回忆,“超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度。”以此为基础,1997年2月李彦宏正式向美国商标局申请了“超链分析技术”专利(Hypertext document retrieval system and method,专利号5,920,859)。这也为他后来放弃美国绿卡、回国创业,建成全球第一大中文搜索引擎——百度奠定了技术基础。
1998年,第七届万维网大会在澳大利亚布里斯班举行,当时年仅30岁的李彦宏作为美国最知名的搜索引擎公司之一——Infoseek 的技术专家应邀在大会做了题为“How to find spam in web search”的演讲,而听众席上就坐着后来Google的两位创始人——当时仍在斯坦福就读的佩奇和布林。二人还在会议间歇向李彦宏请教搜素引擎如何实现商用化的问题。不久之后,Google在美国诞生。而戏剧性的是,佩奇在申请专利时由于Page rank与李彦宏之前申请的超链分析专利具有相似性,美国专利商标局直到2001年才获准了 Page Rank专利申请。这一段轶事,也因为Google传记《in the plex》一书的披露而为越来越多的人所了解。
十年后,当万维网之父提姆•博纳斯•李在与李彦宏在第十七届万维网大会相遇,他告诉李彦宏,自己至今对他在第七届大会上的演讲印象深刻。而在2011年世界计算机大会上,原美国国家科学基金会副主席兼信息学部主任彼得·弗里曼发布的“计算机发展史”报告中,李彦宏成为唯一提及的中国学者,与发明了TCP协议的罗伯特·卡恩以及开创了智能手机和平板电脑新时代的乔布斯等齐名。在他们心目中,李彦宏除了是百度的引领者之外,更是对业界产生深远影响的技术专家。
今年9月份,李彦宏应邀出席数据挖掘领域顶级年会——第18届ACM SIGKDD大会并发表演讲。时隔多年,他仍将OCR 作为“互联网行业的九大难题”之首,又让人们仿佛看到了那个在松下实验室里一鸣惊人的年轻中国学生,十多年来依旧保持着对技术的热爱和创新的敏锐。