Literature
Home医学教育人物专访

深度搜:一个生物科学家的搜索梦想

来源:网易科技
摘要:后谷歌时代,中国的搜索市场格局耐人寻味。百度、微软必应、网易有道、腾讯搜搜、搜狐搜狗,还有电信运营商、央视国家队都蠢蠢欲动。艾瑞对中国搜索引擎市场研究报告指出,市场新进入者,需要以相对差异化的产品和用户定位来突破。对于定位某个特定领域和细分人群的垂直类搜索引擎而言,他们的市场空间有多大。...

点击显示 收起

  后谷歌时代,中国的搜索市场格局耐人寻味。百度、微软必应、网易有道、腾讯搜搜、搜狐搜狗,还有电信运营商、央视国家队都蠢蠢欲动。在这些巨头之外,更多的小虾米也开始行动。



  艾瑞对中国搜索引擎市场研究报告指出,市场新进入者,需要以相对差异化的产品和用户定位来突破。对于定位某个特定领域和细分人群的垂直类搜索引擎而言,他们的市场空间有多大?



  胡前进,深度搜董事长兼总经理,1985年中国第一批开放留学赴美深造的生物科学家,向网易科技讲述了他的搜索梦想。



  做学术搜索  让知识发挥最大价值  http://www.shendusou.com/



  网易科技:先简单介绍一下深度搜吧。



  胡前进:深度搜定位是知识信息搜索平台,目前主要是以学术论文为主,还包含了百科知识等等。



  网易科技:但这些内容用谷歌、百度也可以搜到。



  胡前进:常规的搜索引擎,往往有几百万结果,很难排序。你真正要的结果可能排在非常后面,经常还要第二次第三次搜索,效率比较低。



  网易科技:我记得谷歌是按照访问量来排序的。



  胡前进:这个是对的,这是谷歌最大的技术突破。一般而言,大家都去的站就是好的。



  但是科学文章不能这样,我关心跟研究相关的东西,只要跟研究有关,就要去读,而不是关心大家都去访问的内容。否则就是有偏见的,比如中国人喜欢看中国人研究结果,美国人喜欢看美国人的研究结果。



  网易科技:那深度搜是怎么解决这个问题的?



  胡前进:在内容上,深度搜数据库只收录学术论文、专利、百科知识等,保证了质量。在技术上,深度搜的算法是,根据每个字所附带的信息量,赋予其不同的权重。搜索的时候,根据关键字匹配的数量和权重来判断结果的相关性,相关性高的放在前面,低的则放在后面。



  还可以把整个段落粘贴、复制,进行搜索,常规的搜索引擎超过32个字符就无效了。



  网易科技:每个字的权重是系统判定还是人工?



  胡前进:系统来做的。这是依据信息学的原理,常见的字,比如“的”,信息量是很少的,几乎没有,因为每个文章里都有“的”。而某些特殊的字,信息量是很大的。我们是把重要的信息、把这个文章区别于其他文章的字,来进行寻找。



  网易科技:我记得以前上学时,在中国知网的平台上也可以搜到很多专业学术文章。



  胡前进:其实它是个内容集成商,但是搜索技术很差,稍微打的不对,就找不到。像中国知网这样的网站,还有万方和维普两家,这三家几乎集合了中国所有的专业文献。



  深度搜希望能提供一个专业的知识搜索引擎。这些知识都是人类的财富,应该让它容易被找到,发挥最大价值。



  从生物信息学出发的搜索逻辑



  网易科技:您是学生物出身的。



  胡前进:1982年复旦生物学毕业,1985年第一次开放留学时候,到美国去。第一晚住旅馆之后,用剩下的5美金开始了20年漫长的美国生涯。读博士和博士后,一直从事生物、医学方面的科学研究。



  你也知道,硅谷是一个高科技发源地,不仅IT,也包括生物学。当时硅谷在风险投资的催化下,有很强的创业氛围。1997年我和几个朋友出来成立了生物技术公司,把一些技术和产品引进中国。



  网易科技:那怎么从生物转到了搜索?



  胡前进:2004年谷歌上市和互联网发展,让我们认识到互联网搜索巨大的市场前景。另外,做研究经常要搜索科技文献和专利,而当时几乎所有的搜索引擎都非常低效。



  那时我们就认为这是一个机会,可以去开发一个新的搜索引擎。



  其实在生物学中,为了发现蛋白质包含的信息以及它与疾病的相关性,常常需要将正常蛋白质和病变蛋白质进行比较,在大量的数据库中迅速找到发生变化的点。这是研究的一个基本工具,也可以用来做文字的搜索。



  网易科技:什么时候开始实质性动作?



  胡前进:2006年在美国成立了公司,借用生物信息学的原理来做文字搜索。希望解决两个问题,一个是查准,一个是完整性。就是要准确地找到我想要的内容,而且要能找全。



  那时出于成本考虑,在上海建立了研发团队,在美国团队的带领下做一些辅助性的研发。这也是深度搜公司的前身。



  2009年我接管了上海团队,成立深度搜,针对中国市场来做。



  网易科技:国内的搜索引擎竞争激烈,接受上海团队是有风险的。



  胡前进:中国有2.6亿搜索引擎网民,受过大专及以上教育的占到40%。在互联网搜索内容上,除了音乐和视频,第三类就是新闻和专业文献。这是个需求量并不小的市场。



  但是在对谷歌、百度满意度的调查中,用户满意度不到50%,也就是说一大半人不满意,其中主要是对搜索精准度的不满意。通用搜索引擎为了满足大多数人的需要,把很多杂乱的内容都放了进来。



  这就给我们提供了机会。我们不要和百度、谷歌去竞争,只满足这部分人就好了。



  网易科技:深度搜现在的用户定位是什么?



  胡前进:科研人员、写论文的学生,还有其他在生活中需要专业搜索的人群。



  从学术平台向知识平台扩张



  网易科技:我上网搜了下,在深度搜上可以看到论文全文,这是否涉及到版权问题。



  胡前进:就检索本身而言,并不涉及版权问题,主要是通过标题、摘要、作者来找。



  你提到的全文,是我们跟维普在商业上的合作。我们主要是给科研人员和大学生提供内容,如果读全文要付钱,可能就不会看了,影响了文章的受众面。



  现在和维普的合作是,读者免费阅读,维普通过增加流量获得广告收入,由广告商间接支付版权费用。对广告商而言,也接触到更多的读者,是一个三赢的模式。



  这个模式依靠的就是我们的搜索引擎比维普的要好,读者可以更容易找到维普的文章,增加流量。



  网易科技:和其他两家是否已经有合作?



  胡前进:其他两家只是抓取了标题,摘要,维普是开放内容。这几家之间内容80%-90%都是重叠的。



  目前我们收录最多的是学术论文,但这只是知识的高端,还有其他健康、教育、金融、法律等各种知识,长远来看,想在内容上扩展,把深度搜变成一个知识型一站式网站。



  网易科技:在盈利上,深度搜是怎么考虑的?



  胡前进:流量带动的广告。深度搜现在是百度广告联盟成员,以后希望能自己卖广告,比如专业医疗仪器广告等等。



  现在主要考虑先增加流量,接下来还会和更多的垂直类网站谈合作,丰富数据库内容。等用户做起来之后,开始考虑融资。
作者: 2010-4-16
医学百科App—中西医基础知识学习工具
  • 相关内容
  • 近期更新
  • 热文榜
  • 医学百科App—健康测试工具