硕鼠的博客站

范路的博客主站,时而会发些东西。

Category : 梦想园

IT龙门阵第165期——自然语言处理

6月26日,在盛大创新院北京办公室的御膳房会议室,举办了IT龙门阵的第165期活动——自然语言处理,这期活动的两位嘉宾来自同一座写字楼。分别为来自18楼盛大创新院搜索分院的贾文杰和来自19楼搜狗搜索的张帆。

为了在活动现场能够让两位演讲者有更多的默契,活动主办方特意安排了两位演讲嘉宾提前一天坐在一起吃了顿午饭。相互了解一下对方的话题。不管技术发展到什么程度,处理自然语言的最好方法,还是人与人面对面的交流和沟通,按照中国人的传统来看,要是人与人之间再摆上一些美味的食物,那么交流沟通的效果会更好一些,再有一些酒的话,能够更好,但是考虑到下午要上班,酒就免了。

盛大创新院搜索分院的贾文杰:

P1020190

搜狗搜索的张帆:

P1020251

嘉宾合影:从左到右依此为,本人、贾文杰、张帆、曾贤儒。

P1020302

 

自然语言处理,是计算机智能的开始

现在越来越多的公司已经将目光盯在了智能化上。随着Siri的成功,智能化应用已经逐步的走出实验室,走向大众。

要想让一个应用,或者说要想让计算机具备一定的智能,那么第一件要做的事情就是让计算机理解人的语言,不论是文字、语音,还是形体动作,亦或是表情。自然模式交互,也就是说摆脱了语言文字的交互,对于现在的计算机来说要更加困难一些,IT龙门阵技术专场的第一场活动《多媒体模式识别》探讨的就是这方面的内容。

相对于需要通过多媒体模式识别来实现的自然模式交互来说,直接让计算机进行语言文字的识别和处理应该是更加成熟的技术。

记得刚刚踏入大学校门的时候,老师告诉我们什么是程序语言的时候,他是这么说的:所谓程序语言是针对自然语言而言的,自然语言中充满了二义性,而一段程序语言则拥有唯一的意义。

现在需要让运行程序语言,只能识别0和1的计算机来理解充满了二义性的自然语言,也就是这场会议的主题——自然语言处理。

随着智能系统越来越多的涌现,不论是智能推荐、智能搜索,还是像Siri那种号称是人工智能的产品,都需要实现自然语言处理的功能。自然语言处理是所有智能系统的根本。

中文是一种很难以处理的语言

中文和那些西方语言有一个很本质的区别,那就是我们的文字之中是不写空格的。早先的中文里面连标点符号都没有。古文中就将学生学习读书写字的初始阶段描述为“句逗之不知”,也就是说中国的学生学习读书写字的时候,需要首先学会断句。

感谢现代中文的先行者们,他们为中文引入了标点符号。使得现在我们学习中文的时候不需要再去学些断句了,标点符号可以为我们完成这个步骤。但是他们没有引入西方字母文字中的空格,这就导致了中文成为了一种相对于西方文字更难以被计算机处理的语言。

中文处理是从分词开始的,也就是说首先要做的就是将一句话中的词分拆开来,然后才能使用计算机来进行处理,不同的分词结果,代表着不同的意思。受中国文化很深影响的日文和韩文也有这种问题,也需要进行分词。空格和标点符号都不是韩国人发明的,谢天谢地。

嘉宾介绍了中文分词的发展历程,被普遍采用的四种算法,以及目前最主流的语言模型分词算法。其中的一些例子听得大家热泪盈眶。比如:长春市长春药店,按照不同的分词算法可以被分为:长春市/长春药店 和 长春市长/春药店 。

训练计算机理解人类的自然语言,这个过程和我们教小孩子学习说话有些像。需要将标准的语料库进行人工标注,然后让计算机来学习。这个过程异常漫长和痛苦,现在国内比较流行的人民日报1998年版的语料库。这个库是直到2003年才得以标注完成的。

现在大多数的中文分词系统中都引入人民日报的语料库,这里面有两个问题,第一、人民日报的用语是相当官方的,和人民群众的日常用语有着很大的差别;第二、1998年已经是很久很久以前了,一种被很多人在日常生活中使用的语言的变化是非常快的。要想再做一次这种标注,其成本很高,而且即使标注出来了,也已经过时,毕竟1998年的人民日报是标注到了2003年才完成,这个过程持续了5年的时间。现在的普遍处理方式是,在1998年人民日报语料库的基础上,加入新的平衡语料进行反复的迭代训练,在此基础上加入一些人工干预,然后再进行迭代训练。这里所说的平衡语料库中的平衡,指的是语料库中平衡的包含各种语料,而不是某一方面的语料所占比例特别高。

云计算为中文语言处理带来了什么

所谓云计算就是虚拟化,将原来每一家公司都需要自己做的事情,虚拟化到云端,变成一项服务,然后供大家使用。

以前哪家公司想做分词,想做自然语言处理,就必须自己搞定。现在是云计算时代了,盛大和天津海量信息都提供了云分词服务,任何公司希望能够在他们自己的系统中加入分词功能,或利用分词对自然语言进行处理,不再需要再自己进行开发,直接调用这些服务就可以了。

盛大的云分词应该能够在月内开始公测吧,据说能够达到每秒几百万字的处理速度。

自然语言处理的初期应用——意愿判定

搜狗是从输入法起家的,现在也在做搜索引擎,对于自然语言处理肯定有着和其他搜索引擎企业完全不同的理解。

现在的搜狗正在准备实现自然语言处理的最初级的应用模式,那就是通过用户输入的搜索内容,实现用户意图的判定。

如果用户输入苹果,他们会从用户输入的其他内容或曾经输入、浏览过的其他内容中来判定,用户所需要查找的到底是水果还是水货。

如果用户输入IPhone5,他们也会根据IPhone5是否已经发布了的时间状态来判定,用户到底是希望查找IPhone5相关的新闻,还是IPhone5相关的水货。

对于搜索引擎来说,不但可以得到用户当前搜索的信息,还可以得到用户进行搜索的时间和地点,得到用户的历史搜索记录,得到用户的社交关系,以及用户社交群体搜索的一些数据。当所有的数据聚集在一起,再加上从互联网上爬取来的各种数据,在对所有这些数据进行了自然语言处理之后,搜索引擎就可以做出更加智能的判定。

综合搜索和垂直搜索相结合

判定了意图之后,就可以根据这个意图提供相应的搜索结果。

目前的主流搜索引擎给出的结果都是一个一个的条目,网站条目。这种方式适合于大多数综合搜索结果的列举。同时,现在也出现了不少垂直搜索站,这些站点针对某一类特定信息进行搜索,然后按照符合这一类特定信息的方式,显示搜索结果。比如,有人在普通搜索引擎上搜索机票的信息,得到的会是买机票的网站的条目列表;但是在专门搜索机票信息的垂直搜索站上,就会直接得到机票的班次信息和报价。

对于用户来说,现在这种状况带来两个问题,第一、普通搜索引擎所给出的结果不够好;第二、垂直搜索引擎的数量庞杂,工作生活中各种需要搜索的信息都需要到不同的站点上去搜索,记忆那么多的垂直搜索站点,也是一件非常麻烦的事情。

那么在有了通过自然语言处理技术实现的用户搜索意图判定之后,一个搜索引擎就可以根据用户不同的意图,向其提供不同类型的垂直搜索结果。这也就实现了搜索引擎的智能化。

现在采用这种方式的应用有一些了,比如苹果的Siri,搜狗的搜索引擎,Google Now,百度的框计算。

总结

自然语言处理是智能算法的根本,而智能算法将是互联网和移动互联网应用的关键。任何类型应用,如果想要成功,那么就要实现更少的人为更多的人服务。如果想要实现更少的运营人员为更多的用户服务,那么唯一的办法就是让计算机具备更多的智能。

web1.0、web2.0以及现在在web2.0之后的时代,从发展的过程上来看,就是从少数运营人员为客户服务的web1.0,发展到少数运营人员和一部分客户一起为更多的客户服务的web2.0,再发展到现在,少数运营人员和更多的客户、智能算法一起,为更多更多的客户服务。而且,随着云计算虚拟化技术的普及,不是每一个开发者都需要自己去实现智能算法的部分,完全可以使用云端的服务来实现智能功能,每一个应用都可以使用智能算法来进行信息的处理。

CSDN TUP俱乐部第22期——地图的故事

6月19日的这一场活动的准备阶段发生了一些非常戏剧性的故事,甚至有些惊心动魄。

地图是LBS(Local Based Services)的基础服务,所有LBS服务都需要基于一种地图的底层服务,所以一直希望能够做一场地图的活动。

在进行了精心的准备之后,却突然被告知原来准备的活动,由于某些原因无法如期举行。突然出现这种情况,只能向朋友们请求援助,找到CSDN的刘江老师。给他打电话的时候,他正在美国,听取了相关情况之后,他觉得地图这个主题还是非常有趣的,于是就安排了csdn的几位同事帮忙。给刘江老师打电话的时候,已经是周五的晚上,而活动是在周二晚上举行的,感谢CSDN的同事们,连夜加班工作,利用休息时间进行会议的准备工作。感谢CSDN为这个活动所作出的努力,在这些努力下,这样一场有趣的、有意义的活动最终能够成功的进行。

高德地图和百度地图

这次请到的嘉宾来自高德地图和百度地图。来自高德的王洋是高德地图研发部的经理,百度的严峻则是来自百度地图前端组。

来自高德的王洋:

高德——王洋

来自百度的严峻:

百度——严峻

这是我参加的历次活动中嘉宾的角色相对反差较大的一次。一个是研发主管,而另外一个则是真正实际编码的一线人员。他们从不同的层次,为参会者介绍了地图的故事,也讲述了各自公司对于这个领域的理解,以及他们曾经、正在和将要在这个领域中的投入,他们也分别描述了各自公司对于在地图领域进行投入所期望得到的回报。

新老交替——互相进入对方的领域

高德地图  

高德作为老牌在的地图厂商,是中国拥有测绘牌照的少数几家地图数据提供商之一,王洋也说了,他们的原始业务是地图测绘和地图数据的提供。而现在,高德准备进入互联网和移动互联网这个新领域,为广大的互联网和移动互联网企业或小团队、开发者提供底层的地图服务。希望能够以地图和地理位置作为核心的底层服务,来支撑更多不同的产品和服务,以便更好的为他们现有的用户服务,并开拓出更多的、更广阔的市场和用户。

高德正在进入以腾讯、百度为代表的互联网行业,并希望能够依靠其可靠精确的数据,以及强大专业的服务团队,借着LBS这一波大潮,挤进互联网和移动互联网领域,并在其中占据一席之地。

百度地图

就像上面说的,百度作为国内最大的搜索引擎,算得上是老牌子的互联网企业了。虽然很少使用百度的服务,但是不得不承认,百度在国内的互联网领域算得上是一个泰山北斗级别的公司了。近一段时间来,百度开始大力的推广他们的地图产品,现在已经推出了百度地图、百度地图手机版,其产品也具备了导航功能。

百度正在进入以高德、四维为代表的传统地图领域。并希望以地图为契机,在LBS这波以移动互联网为主要阵地的大潮中能够继续其在互联网领域中的霸主地位。

Google Logo

不同行业中的两家老牌子的传统领军公司投入大量的人力物力,相互进入对方的领域,这其中的主要原因肯定是大家都非常看好由地图和互联网、移动互联网相互组合形成的这个全新的LBS业务。但是这里面也有一个不得不提一下的公司起到了很特殊的作用。

看到上面的Logo大家就知道了,这个公司就是谷歌。谷歌地图是在国际上被最多人使用的地图产品,也曾经是国内互联网上被使用得最广泛的产品,最经常被开发者和创业者作为底层服务所使用的地图了。

而这样的一个产品和高德和百度都有着千丝万缕的联系。

谷歌地图在国内使用的是高德的数据,一家美国企业肯定很难拿到中国地图的测绘牌照,所以使用国内的数据也就成了必然的选择。百度由于是后来者,也没有拿到测绘牌照,只能使用四维的数据。

百度作为一家搜索引擎公司,在很多业务上都对在模仿全球搜索引擎的老大,那就是google,在google由于某些他们自己不可告人的邪恶目的被迫将大部分产品撤离中国大陆市场的时候,百度就趁机大力扩张,并抢占google留下来的空白。google地图现在还在为了地图牌照的事情在各个政府部门之间递交申请和等待批复、盖章,于是百度也就义不容辞的冲了进来试图填补这个空缺。

高德的基础是数据

高德是从做数据起家的,现在其基础业务依然是地图数据的测绘。google到现在为止在中国大陆地区使用的还是高德的数据,苹果的IOS6虽然抛弃了google的地图服务,但在中国大陆地区依然使用的是高德的数据和底层服务。

前几天参加的高德地图api大赛上,高德的老大讲话中有一段非常奇怪。他说,苹果需要一家公司来提供中国大陆地区的地图服务,需要一家公司来提供实时的地理位置信息服务,还需要这家公司能够按照苹果的用户需求和产品设计,提供一些全新的服务。当大家都期待着他骄傲的说出高德就是这家公司的时候,全场听众却发现,这位老大已经骄傲的结束了这段内容。既没有说苹果使用了高德的服务,也没有说高德就是这家公司。在TUP俱乐部的这期活动上,也有人在提问的时候提到了苹果选择了高德的数据和底层服务,王洋同样是那幅满脸骄傲自豪的神情,既不承认也不否认。估计是受到了一些保密条款之类东西的限制吧,他们被问到相关问题的时候都会是这样一个态度的。

高德具有几千人的测绘和地图修订团队,目前能够保证对国内所有县级以上城市和道路,以及绝大部分的乡镇地图数据进行每年四次的全面更新和维护。

在汶川地震的时候,高德第一个派人到现场去,对地震破坏之后的道路进行了测绘,并及时更新到了系统中去,以便让那些进入震区的导航系统及时得到最新的地图数据。

和各大城市的出租公司合作,在每一辆出租车上安装GPS系统,并从这套系统中自动得到路况信息;派人进入公园,进行公园内的信息点和道路的采集;派人进入mall和各类商业地产,对这些原来在地图上只是一个小方块的建筑内部信息进行采集,高德还在不断的完善着他们的数据,还在不断的发掘新手段采集更多的,对用户更有价值的数据。

数据是高德的根本,也是主要现金来源。以后这也将一直是高德的最核心业务。

对数据的深度挖掘带来新的盈利模式

高德在得到了向google和苹果这样的IT厂商和各大汽车厂商销售数据和基础导航服务的稳定现金流支撑之后,开始将触手逐渐的伸入互联网和移动互联网的领域。

在进入互联网和移动互联网领域之后,很多合作伙伴不再是单方面的从高德得到数据,而是反过来可以向高德提供一些POI(兴趣点)信息。高德正在通过语义分析的方式,对这些信息进行甄选和过滤,并希望能够通过对这些数据的挖掘,发现新的,对用户有价值的服务模式。

以前参加一次NTalks会议的时候,一位投资人说过,曾经亲自去询问过4sq公司的人,他们为什么要做check in?4sq的人回答,check in的唯一目的就是不断的校正POI信息点。参见另外一篇博文:《LBS应用中的签到到底有什么用

移动互联网应用由于可以随着用户走遍四方,所以这也是一个非常好的,通过众包方式采集地理信息的方法。

王洋指出,这种使用UGC(用户生成内容)方法生成的数据,是非常不精确的,他们发现经常有不同用户为同一POI做出的标注距离相差超过1.5公里以上。这一部分的内容,他们必须要靠人工的方式才能进行处理。手机在室内是无法使用GPS信号(误差十几米)进行定位的,在没有wifi基站(误差几十米)进行辅助定位的情况下,就只能使用移动基站来进行定位(误差一公里)。如果是两个服务商的手机使用移动基站进行定位,比如一个联通用户和一个电信的用户都使用手机基站进行定位,那么即使他们面对面最在一张饭桌的两边,也有可能连接到了两个公司相聚1.5公里以上的两个不同的基站上。于是他们为同一个POI所作出的标注就会相差很大。

地图就是浏览器,基于位置的信息就是内容

对于两家大厂商来说,他们进入地图领域的原因就在于,地图会成为输入法、浏览器、下载器、搜索引擎、播放器、手机、手机ROM、手机桌面之外的一个新的入口。很多很多的应用,很多很多的服务,都可以通过这个入口被推向用户。

所有有能力的厂商,都会去尝试占领这个入口,至少也要让其他公司占领相同入口的成本有所上升。现在,搜狗在做地图、百度在做地图、微软在做地图、腾讯在做地图、苹果也要在他们的IOS应用中加上自己的地图。在国内,那些有钱和有牌照的公司,都希望能够抢占这个全新的入口。

百度的地图API

就像金山在wps中采用了和微软office完全一模一样的API接口一样,百度的地图API,高德的地图API和一些其他国内公司提供的地图API,都和google的地图API接口基本保持一致,那些以前使用google地图服务的应用开发商,基本上不需要修改代码就可以直接进行移植。

目前百度和高德的API,至少是Javascript部分的API是免费的,而且限制极少。

免费地图模式

大家都处在打江山的阶段,所有的地图服务商现在都在拼,拼其他人先坚持不下去,先退出。活到最后的那一个或几个才是最终的胜利者。

百度是依靠其巨大的流量变现能力,利用其广告和竞价排名的收入来支撑这场战争。而高德则是做为上游数据提供商,依靠销售数据的利润来支撑其进入这个血腥的战场,并期望能够留存到最后,成为最终的胜利者,至少也是最终胜利者之一。

总结

DSC_0731

活动结束,大家拍合影。从左到右,csdn的付江、我、高德的王洋、百度的严峻、盛大创新院的曾贤儒。

地图现在已经成为了一个新的入口,一个被很多大鳄盯着的入口。就像所有大公司都要做自己的输入法、浏览器、手机一样,每一家有能力,或自认为有能力涉足这个领域的公司,都会冲进来狠狠的在这块蛋糕上面咬一口,哪怕蛋糕完全是用黄莲做的。

虽然第一批的国内LBS应用大多都没有生存下来,即使是苟延残喘的那部分,也都没有明确的商业模式和稳定的现金收入,但是所有人都相信LBS应该是一个方向,总有一天这个市场会蓬勃的发展起来。就像微博那样,死掉一批之后,第二批里面就会有人浴火重生。

我还会继续参加各种各样有趣的活动。尽量为每一次参与的活动写一篇博客,但是手比较慢,所以通常会在一周之后才能把博客贴出来,继续坚持吧。

预告

后续在北京创新院的御膳房会议室还会举办Android ROM的PK,由盛大的乐众ROM、小米ROM和点心ROM同台PK。还计划搞一期NoSQL数据库的PK,主要分享Cassandra和MongoDB。时间确认下来会向大家发通知的。

华蟒沙龙——北京地区的Python活动

盛大创新院北京办公室,继6月16日的《图灵读书会——推荐处理实践》的活动之后,6月17日,又迎来了一场新的活动,《华蟒沙龙——北京地区的Python活动》。

组织这次活动的是金山的@ZoomQuiet 组织的。我个人对Python完全不了解,所以我本来是抱着听天书的准备来参加这次活动。

我个人以前主要是搞Delphi,后来也搞过一段时间的Ruby on Rails,对于动态语言还是有一些了解的。记得以前在Borland的时候,对编程语言是这么分类的:

  • 原生(Native)语言,就像Delphi、C++之类的,直接可以编译得到二进制机器码的语言。
  • 管理(Management)语言,指的是那些编译之后需要在虚拟机上面运行的语言,比如java、C#。
  • 动态(Dynamic)语言则是说的包括Python、ruby、javascript、coffeescript、php这些语言在内的,不需要进行编译,直接通过解释器解释执行的脚本语音。

 

Python在动态语言里面,算是应用范畴比较广泛的一种了,从web开发、移动开发,到服务器脚本、各种网络设备控制都可以使用Python来进行。 

华蟒沙龙这个活动发展到今天,也不都是python的人过来分享,第一个分享者的项目就是使用coffeescript开发的,他做了一个全新世界的描述。

设想了有一个星系,这个星系中有两颗恒星在稳定的运行,在这样的一个星系中如果有一颗和地球很接近的行星,那么这颗行星上的气候、生物应该是一个什么样子呢?这位可敬的科幻迷,模仿了这颗行星的日出日落时间,生成了行星的板块和海洋地形,模仿了大气的流动。他希望在将来能够通过计算机的计算,仿真出这颗行星上面的植物,以及动物生态环境。他的项目是开源的,希望能够有很多对着干项目感兴趣的朋友参与到这个项目中来。

 DSC_0577
DSC_0578

下一位演讲者,为大家分享了又一种web开发框架,python和php都存在大量的框架,就是做web的mvc框架也是非常多的。这一点上,我更喜欢ruby,web框架基本就是rails了。

uliweb应该是一种python的web开发框架,这位分享者上来讲了讲这种框架,以及他使用这种框架的体验和这种框架未来的发展方向。

DSC_0580

在uliweb之后,是一位来自清华的博士,来为大家分享他们做的智能车,以及如何可以非常简单的设计一些硬件产品。

用他的话来说,淘宝可以解决各种各样的问题,可以从淘宝上购买到各种各样的元器件,甚至有些东西还可以要求淘宝卖家帮忙进行改装和调整。他们自己购买了一个底盘,现在已经可以让那辆车在无人驾驶的情况下,横向的移动,以实现贴库的动作。即使是有人的情况,我也没办法操纵我的汽车横向平移。这位博士还以电饭锅为例,介绍了如何改装家里面的电器,如何让程序控制这些等等。

DSC_0597 

当有人问,应该如何从零开始做一件自己的硬件产品时,博士拿出了一个tp-link的便携式无线路由器说:大家可以到淘宝上去买一个这样的路由器,并要求卖家帮忙刷好开源的操作系统,将里面一些用不到的接口用线缆引出来,然后就可以把这个路由器当作一个控制器来用,可以直接通过网络编程,控制那几个接口,实现开关功能,或者接上一个摄像头什么的。

在此之后,豆瓣的工程师分享了一下,他们在trac基础上开发出来的内部开发过程管理工具。这个工具是豆瓣内部使用的,至少目前还没有开放出来的计划。 

大家看到照片上那个红色的、圆形的东西了吗?那是一个番茄计时器,每一个演讲者上台的时候,都会将他们计划的时间设定到计时器上,在计时器响起来的时候,讲演者就还剩最后5分钟的提问和交互时间了。DSC_0586

来自42qu的张教主分享thrift接口语言。现在很多的应用,都需要开放api来为第三方开发者服务,当前比较普遍的方法是使用http、restfull和json,但是这种方法在处理大量二进制数据的时候,效率很差。所以像everntoe这种需要处理二进制内容数据的服务,他们就会选择thrift这种接口语言。thrift这种中间语言,可以被转换成各种常用的编程语言。这样的话,用户不论使用哪种语言来编写他们的第三方应用,都可以转换成thrift的接口语音,然后就能够跨语言、跨框架、跨平台的进行高效的数据调用和交换了。

DSC_0602

最后上来的是来自金山的两个兄弟,包括这场活动的组织者ZoomQuiet,那个T恤上写着人生苦短的就是。他们希望能够通过一对一的教学,现场学习lisp语言。但是这哥儿俩配合得不是很好,基本上就是在规定的时间内,演示了一下编辑器怎么使用,lisp相关的东西,基本没有看到。

DSC_0615

这是华蟒沙龙停摆了一段时间之后,重新启动起来的一场活动,希望这些活动可以更多的办下去,盛大创新院的御膳房会议室欢迎大家。

图灵读书会——推荐系统实践

6月16日,我们的御膳房会议室迎来了一个非常有特色的活动——图灵的读书会。图灵是挂靠在人民邮电出版社下面的一个出版机构,不是很大,每年出的书也不是很多,但是对于一个计算机、软件圈子的人来说,图灵的影响力还是很大的。这主要是是因为图灵所出的图书,品质一直都非常不错。

记得以前有一次和一个出版社的编辑聊天(另外一家以计算机图书闻名的出版社),他说纸质书就是给初学者看的,那些已经达到一定技术层次的人,是不会购买纸质书看的,他们如果有什么需要,通常能够在网络上找到所需内容。所以纸质书就是为初学者设定的。我和图灵的人聊天的时候,他们却告诉我,他们会出一些比较有深度的、比较新、层次比较高的书,哪怕这些书的销量很小,但是对于那些真正需要这些书的人来说,这些书才是真正有价值的。

很难说这两种观点哪个更正确一些,从我个人的角度来说,那些为初学者编写的书籍,可能能够有很好的经济效益。但是那些有层次、有深度,描述最新技术的图书,才是对社会,对整个行业有价值的东西。

图灵的编辑真的很热爱他们所出版的图书,热爱图书本身而不是为图书的销量而忧、而喜。每次见到他们,他们都会满怀激情的向我推荐他们的书,就像计划生育之后的父母们在向周围的人介绍他们唯一的宝贝。

图灵最近在做一些改变,从一个出版机构向社区的方向转型。既然他们已经拥有了一个相对细分的,很有深度的读者和作者、译者人群,那么去维护一个拥有极强购买力和社会影响力的社区,肯定要比做一个单纯的出版机构更加有价值。

DSC_0450

图灵出了不少曲高和寡的图书,比如很多数学方面的书,还有不少算法方面的英文原版书。每次出来做活动,他们总是要带着这些宝贝出来向大家展示。

DSC_0468 DSC_0470

当天推的这本书是一本《推荐系统实践》,这个主题虽然是现在最热门的主题,但是真正能够看懂这本书的人应该并不多。所有人都知道智能推荐是当前互联网和移动互联网中最核心的技术,能够说出其中一些特性的人也不在少数,但是真正了解或者说愿意去了解推荐系统核心算法的人并不是很多。

既然是读书会,那么分享者肯定是和这本书有关的一些人,《推荐系统实践》这本书有两位技术指导,和一位作者。当天的读书会就是有这三位来为大家分享他们各自对于推荐系统的理解和心得。

曾经任职于谷歌,现任腾讯公司情境广告中心总监的王益,是这本书的一位技术指导。腾讯公司情境广告中心总监——王益

王益主要讲了一些广告相关的东西,讲解了广告和推荐的差异。作为一个互联网广告圈子里面的老兵,他讲的东西还是很能够引起不少听众的共鸣的。

来自豆瓣的陈义是本书的另外一位技术指导。

豆瓣的陈义

陈义的语速非常缓慢,听他讲东西是一件非常痛苦的事情,总是觉得非常的困。

下图为本书作者,来自hulu的项亮。 《推荐系统实践》的作者——来自hulu的项亮

和上面两位推荐和互联网广告圈子的老兵比较起来,项亮要稍微稚嫩一些,从中科院毕业时间不久的他,虽然现在就职于hulu,但是讲解的时候,纯数学的东西多了一些,和应用结合得有些生硬。他所能够拿出来列举的案例,大多是hulu的,还有个别amazon的案例,基本都是一带而过了。

所谓推荐系统

推荐系统,其实由来已久,不同的地方仅仅是,现在所说的推荐系统是有计算机系统根据用户的属性和内容的属性进行自动推荐,以前是人工推荐,用比较书面的语言来说叫做编辑推荐,而现在则是计算机自动推荐。自动推荐的好处在于能够在更大的范围内选择内容,向更大的人群做一对一的个性化推荐。这是以前的编辑推荐所无法实现的。

推荐系统需要向用户推荐一些用户所喜欢的东西,但这并不是全部。推荐系统还需要不时的向用户推荐一些新的东西,要保持一定的新奇性。推荐系统中比较典型的电台类应用,其创新性就在于用户可以不断的听到一些新歌,一些从风格判定,推荐系统认为用户应该喜欢的新歌。

在推荐用户喜欢的内容,和用户应该喜欢的新内容之外,推荐系统还需要告知用户,他是怎么工作的,是依据什么做出的推荐。推荐系统需要和用户之间建立起信任,并不断的加深和巩固这种信任。类似于竞价排名和在sns timeline中灌广告都是伤害这种信任的做法。

推荐和广告是两套不同但相近的算法

这两种算法,非常相近,都是希望能够能够将最佳的内容推向用户。但是,也有一些差异。推荐算法只需要考虑用户的满意度即可,也就是说推荐算法所追求的就是不断的提高用户的满意度。但广告算法要复杂一些,广告算法并不仅仅追求用户的满意度,通常用户最满意的广告算法就是没有广告,所以,广告算法所追求的是用户、广告主之间的一种平衡。

推荐的是内容,而广告应该和内容分离开。中国人总是觉得自己比别人更聪明一些。比如百度就将广告直接和内容混合在了一起,做了竞价排名系统。很多人都觉得这是一种不道德的方法,特别是这个行业的老大google号称自己不作恶,他们的搜索结果是完全由算法决定的,不受任何商业因素和人为因素的影响。google是将广告分离出来放在搜索页的旁边,并标注清楚,那是广告。

将内容和广告进行混合,最彻底的应该是SNS系统,但是也有很多SNS系统因为在内容中混入了太多的广告而之逐渐衰亡。国内SNS网站中这种例子很多的。

推荐和广告算法,是当前互联网和移动互联网的关键,核心竞争力

用户进入一个网站的目的是获取内容,所以作为为用户直接推荐内容的推荐系统,是当前各个内容网站的核心功能。

记得以前大家总是在说Web 1.0时代,是网站提供内容,用户自己上网去阅读这些内容。到了web 2.0时代,则是用户自己创造内容,用户自己决定订阅哪些内容,系统自动将用户订阅的内容推送给用户。而到了现在,由于用户创造内容的成本越来越低,用户所创造的内容成几何级数爆炸增长。再有用户自己去筛选自己所需要的内容,并进行订阅已经越来越困难,于是以机器学习为核心的智能推荐系统就成为了互联网和移动互联网服务最核心的功能。

用户的时间越来越紧张,甚至连碎片时间也逐步成为了各个应用和服务所争夺的阵地。如何在有限的时间内尽可能看到更多的用户自己觉得重要和有趣的信息,这就是目前互联网和移动互联网应用和服务所争相研究的领域。Path的成功,就是这种新需求下的新信息组织方式的一次成功,path仅仅是向用户推荐一些他们可能认识的其他用户,path是通过限制好友数量来实现对信息流的约束的。

智能广告推送系统

当直接销售马匹的收入无法让人们满足的时候,人们为马匹分级。当固定的广告位置和报价无法让企业和用户满意的时候,网站上智能广告系统。

最早的互联网广告从传统的平媒广告中继承了很多规则。网站将广告位根据位置和面积进行了详细的划分,然后按照不同的价格销售给不同的广告主。当广告位越来越紧张,用户为了得到更好的体验,希望能够尽量减少广告位置,而广告主虽然需要在有限的广告位上展示他们的广告,但是他们又不愿意为了这些有限的资源支付更多的费用,于是互联网和移动互联网广告又从电视和广播广告行业中学来了新的规则,将同一个广告位,按照不同的时间段分割开来,卖给不同的广告主。

随着广告内容的增长,由网站编辑来处理广告已经越来越困难了。虽然电视台和广播电台都有自动广告播放系统,但是这种系统还是无法适应互联网广告的播放。自动广告播放系统,在同一个时间、同一个频道上播放同一个广告。这对于能够直接计算转换率的互联网广告系统来说显然还不够好。

为了降低单个广告的播出成本,增加单位时间内,单个广告位播放广告的数量,以及这些广告的点击数和转化率。互联网广告服务商在抛弃了按照固定位置销售广告,按照固定时间段和固定位置销售广告位之后,选择了自动推荐广告的方式。也就是根据用户所浏览的内容,自动在广告库中挑选一条用户可能喜欢的广告来播放,在同一个时间段,在同一个广告位置上,不同的用户看到的将是完全不同的广告。

有限的广告播放位置,被从空间和时间上彻底的拓展了。现代的广告推荐系统就是在最大限度上利用广告展示机会,并将转化率提升到最高的一种方法。通过综合的考量,可以确保广告主的广告,特别是那些容易被用户点击的广告,在用户阅读内容的时候,推送到用户面前。然后,根据可靠的记录和统计结果,向广告主收取相应的费用。一个广告被展示了多少次,被点击了多少次,甚至是产生了多少次购买。

互联网和移动互联网广告拥有一个任何传统广告方式都无法匹敌的优势,那就是可以直接转换为购买。任何传统广告,都无法准确的统计到底有多少用户是通过广告走进商店购买商品或服务的。传统广告的效果通常是按照复杂的数学方法评估出来的,而互联网广告却可以直接结算转化率。所以,互联网广告算法就变成了赤裸裸的对转化率的追求。

大部分的互联网广告算法,最早都是来自于google,google应该是目前互联网广告算法的开山鼻祖,也是最前沿的广告技术得以被研发和应用的地方。google在国内的专利,大部分都是和广告相关的。曾经听过一位以前在google工作过的同事说起过google的专利政策,他们觉得那些和搜索相关的核心算法没有必要去申请专利,一旦他们申请了专利,别人就会来抄袭他们的算法。而后台的核心算法,即使被抄袭了,也很难证明。bing就曾经抄袭google的排序算法,google唯一能做的也就是将完全一模一样的搜索结果展示给广大网民,博得一笑。但是google在广告业务方面的专利投入还是非常可观的,他们申请了大量的广告展示、推荐和计数相关的专利。而且将这些广告专利在国内都做了PCT(专利合作条约 PATENT COOPERATION TREATY),也就是说这些专利在国内都是有效的。不过好像没听说过google在专利上起诉过谁,还是那位原来在google工作的同事,他说google的专利政策是避免别人来告google,google很少主动去告别人的。

这个行业里面有google这样一个老大,要比苹果和oracle那种公司成为老大肯定好很多。

高深的数学,让人难以一下听懂

不论是推荐算法还是广告算法,其核心都是高深的数学理论知识。这场活动是我所参加的各种活动中,内容最艰深的一次了。核心的部分,基本听不懂。像我这种层次的人去参加这种活动,也就是能够在案例和叙述的部分,还能听明白一些东西,但是那些数学公式除了让我感觉这个行业异常艰深之外,就不是我这种假行家能够搞明白的了。

推荐系统不论使用什么算法,其关键在于多维数据的整理和分析。所谓的多维,通常至少是数百个维度,据说google已经可以在以亿计的维度中对数据进行分析和比对、排序了。

关于冷启动

对于广告和推荐算法来说,都不得不面对冷启动的问题。推荐算法将冷启动进行了更详细的划分,分为新用户进入系统时的冷启动、新内容进入系统时的冷启动,以及系统中用户和物品都是新的时候的冷启动。

当一个新用户进入系统的时候,系统不了解这个用户,不知道应该向这个用户推荐什么内容或广告。

通常推荐系统的核心算法按照侧重不同,分为以用户为核心的推荐算法和以内容为核心的推荐算法。那些以用户为核心的,就是根据用户的行为特性和用户与用户之间的关系来进行推荐的系统。这种算法有一个通俗的名字叫做协同过滤,通俗的讲,系统分析一个用户的行为习惯,然后找到和他行为习惯相近的用户,将那些和这个用户行为习惯相近的用户们喜欢的东西推荐给这个用户。豆瓣电台应该就是比较典型的协同过滤算法的实例。

这种以用户为核心的推荐算法的问题就是,当新用户进入系统的时候,很难做出准确的推荐。

另外一种以内容为核心的推荐系统,是将内容进行分类,然后以喜欢某一内容的用户,应该也喜欢同一类型的其他内容为基础,向用户进行推荐。亚马逊就是使用的这种方式,当某个用户在亚马逊中点击了某件商铺之后,回到主页就会看到同类型的其他商品的推荐。

这种以内容为核心的推荐算法在新内容进入系统的时候,推荐的效果也会出现偏差。

曾经有一个很神奇的案例,潘多拉电台,在系统上线的时候,用户和内容都是新的。无论采取哪种推荐算法,都难以得到很好的效果。于是潘多拉做了一件事情,邀请了大量的专家,将几十万首歌曲和音乐请这些专家进行评定和打分。将音乐分为四百多个维度进行评定,形成了一个完整的评定模型库。每一个用户进入的时候,首先要填写自己的喜好,系统根据用户的喜好和专家评定的模型库来进行推荐。

一个新的系统,既没有用户也没有内容的时候,总是内容要更容易处理一些。花钱做内容,不论是用什么方法,其投入产出比通常还是可以进行预估的。但是,如果花钱去做用户,其结果通常就像天朝的新闻联播那样,制作和观看的人都知道那是靠不住的。

总结

智能广告系统,对于那些小网站和小应用来说意义不大,这是个大公司才能玩儿得起的东西。现在很多大公司都在做平台,吸引那些小型的应用和服务进驻他们的平台,他们其实就是希望能够依靠广告来赚去利润。

推荐系统将逐步走下神坛,成为所有系统和应用的必备选项。但是推荐系统目前还主要停留在两个极端,大公司可以使用一些数学家来为他们设计模型和算法。而那些创业团队中的程序员们,则完全是根据个人的力量在单打独斗。目前的推荐系统,其数学部分和算法部分,很难被现在学校里面毕业的那些软件学院的本科生甚或是研究生所理解,现在的学校课程的划分越来越细化,那些以应用为目的的学科,其基础课程的重量已经越来越轻了。

记得我95年大学毕业的时候,有人说,数学对于以后的程序员来说所需要用到的绝大部分是加法,减法和乘法偶尔用到,除法基本不用。现在看来,计算机虽然主要用途已经不再是计算,但数学对于这个以智能为核心动力的时代来说显得比以往任何时候都更加重要了。

相信那些位于两个极端中间的一些智能推荐工具将在不久的将来风行起来,那些不需要开发者具备太多专业数学知识,就能够被使用的开源或开放的云端推荐服务和系统,应该会在未来一段时间里面逐渐涌现,并最终形成类似于Apache、Nginx那样的东西。


参加第16期五道口沙龙——社交视频分享

关于五道口沙龙

这是我第一次参加这个网易和一大堆赞助商合办的活动,虽然叫做五道口沙龙,但是位置距离五道口还是有一定的距离的。周日(2012年6月10日)的这一期在北大博雅国际酒店举办。酒店相当不错,wifi速度很快。唯一的缺憾就是,来参会的人实在是少了些。总共也就是三四十人的样子。因为当天有一个盛大创新院的主题,盛大创新院就来了7个人,其他几个有主题的单位再加上赞助单位和网易自己过啦的人,不知道会场里面是不是还有其他人。

按道理来说,网易应该也算是一块金字招牌,五道口更是号称宇宙的中心,就算网易办的五道口沙龙,距离五道口稍微远了一些,也不应该只有这么几个人参与啊?而且,社交视频分享这个话题也算是一个比较热门的话题了。

我心中的疑惑在会议开始之后,被主持人解答了。主持人要求大家使用网易微博进行讨论,看来他们也是在网易微博上做的宣传。做这种会议,缺乏开放的心态,是很有问题的。

五道口沙龙里面当然也不是一无是处,一个比较有趣的东西就是那个横向数据比较表。在会场的前面有一块大号的白板,上面是每一个应用的名字,在每一位嘉宾开始之前,必须要介绍应用的基本情况。包括上线时间,用户数,日上载视频数字,团队人数和融资情况。

当天的四个产品,用户数字都很少,大部分人都不好意思说。即使是有几个不怕丢人的,也就是十几二十万用户的样子。上线时间有先有后,但前后也差不出几个月,基本都是看到viddy拿到风险投资之后,开始做的。日上载数字,优酷拍客有接近1000个,微酷和微拍都是100个左右。团队规模基本上都在10人上下。资金状态,微酷和优酷拍客是用的企业内部资金,微拍拿的是创新工场的投资,眩拍使用的则是天使投资。

 

很遗憾没有拍什么照片,大家到网易微博上去找照片吧。就算拍也拍不到几个人。

 

社交视频分享

这期的主题是社交视频分享,在Instagram被10亿美金收购,在Viddy和SocialCam蓬勃发展的今天,通过社交平台进行多媒体信息的分享,肯定是一个非常热门的话题。

国外的Social Network Services在开创的时候,在多媒体信息这一块做得都不是很好。Twitter根本就不支持图片,Facebook虽然支持图片和视频,但是在pc端和移动端支持得都不是很好。这就给国外的图片微博、视频微博等多媒体内容分享的平台留下了充分的生存空间。

更加有别于国内市场的地方在于,即使那些SNS巨头们发现了这个新的盈利点,他们也没有冲过来将其吃掉,而是选择了耐心的等待,在这块领域的产品相对成熟之后,将其收购下来。在活动后面的投资经理点评环节,嘉宾也说了,在国外这种企业有着第三种退出方式,而国内通常只有两种。也就是说,在自己盈利和IPO上市之外,国外的此类应用还可以被大公司并购。

国内的社交视频分享市场,在看到了国外大量同类应用蓬勃发展的时候,也逐渐升温,就像任何一个在国外发展得很好的领域那样,迅速的杀出很多大小鲨鱼、鳄鱼和食人鱼,抢夺着不多的几个高端白领用户。

微酷——高科技堆砌出来的产品

微酷的介绍,听起来他们的特色主要是在于技术门槛。微酷不像其他几家那样使用通用的滤镜渲染引擎,而是完全自主开发了一套实时拍摄渲染滤镜引擎。他们现在在产品中展现出来的仅仅是这个庞大、强大、神奇、划时代引擎的冰山一角。

而且,在微酷超强研发团队的努力下,他们将这套引擎中的绝大部分功能,优化之后,从服务器端迁移到了移动端。用户完全可以在本地就享用那把杀鸡用的牛刀。

微酷将产品的各个细节介绍得非常详细,感觉就像是在向导师做课程设计的大作业报告。但是好像漏掉了用户的部分,没有用户故事,没有说明微酷在满足哪些用户的哪些具体需求,以及微酷自己到底为用户解决了一些什么问题。应该仅仅是漏掉了吧,这样一款产品怎么可能缺乏这么关键东西呢?

拍客——依托大平台的UGC延伸

继微酷之后,第二个上来做分享的是拍客,拍客是优酷的一个拍摄工具。

其实拍客并不算是一个完整的社交视频分享工具。一个完整的SNS内容分享工具,应该包括数据的录入(拍摄或本地上传),数据的处理(智能分类和推荐、分发),数据的输出(用户订阅和消费内容)三个部分。拍客仅仅完成了数据的录入和部分的数据处理。其他的部分都是在优酷上面实现的。所以拍客只能算是优酷的一个UGC延伸工具。

优酷最早也是希望能够复制Youtube做UGC(用户生成内容)模式,后来转向了Hulu模式。也就是购买版权,在用户消费有版权内容的时候,依靠广告收益达到盈利目标。

各大互联网视频网站拿着美国股民的钱血拼中国电视剧版权的结果,就是电视剧的版权价格快速的起飞。普通剧集每集的成本也要达到几十万人民币,那些热播剧更是高得可怕。

优酷在并购了土豆之后,还在和腾讯、新浪、搜狐、百度等大号互联网公司继续争夺版权内容。同时,他们也转过头来,希望能够有更多的UGC内容充实他们的内容库。UGC内容成本基本可以忽略不计,但同样可以带来一定的收益。

拍客的口号是:这一秒在你拍,下一秒世界在看。优酷充分的利用了现在互联网第一视频网站的身份,向使用拍客的用户承诺最大的观看用户数。他们将审核上线时间缩短,让拍客所拍摄的内容具备更强的时效性和媒体性。并在优酷中使用最好的推荐位置,推荐那些热门的拍客视频。

优酷还利用优酷已经被所有SNS网站都接受了的播放器来将拍客拍摄的视频直接推送到所有的SNS网站上去。其他一些应用本来也可以利用这种便利的,但是仅仅是因为一些技术人员的洁癖,他们放弃了。

拍客解决了用户内容快速传播的需求——快速的审核,最好的位置向最大的视频网站的用户直接推荐,直接无障碍的在各种SNS平台上流传。以后他们还准备再将各个sns平台上面的评论归并回优酷平台,可以让用户在统一的平台上看到所有sns平台上面对他发布内容的回馈。

眩拍——华丽转型直播客,仍然前途未卜

眩拍是个很奇怪的产品,作为嘉宾跑来分享社交视频分享应用,但是站在台上却说他们发现这个领域完全没有生存空间,所以已经完全转向了。眩拍产品的最后一个版本是去年11月的,在那之后已经停止更新了。现在在做直播客,做线上视频直播。

今天早晨在网上搜了艘,大家在讨论主要是直播客的网站为什么打不开了?这也许并不是周日演讲的那个直播客,但是可以想见,在天朝统治下,这种直播类的应用运营风险是十分巨大的。运营成本也是非常恐怖的,这种应用都是需要用真人来对内容进行审核,万一不慎直播了个散步或者交通事故什么的,可能马上就会面临灭顶之灾。

微拍——夹缝中求生存,做大公司不愿意做的事情

微拍的那位分享嘉宾就是中国特色的职业创业家。这种人以创业为职业,一次一次的创业,将创业过程中的各种环节都摸得非常透彻。就像我们通过高中三年的培训,能够将一个个的学生培养成考试专家那样,这些人对于创业中每一个环节的数据把握得相当精确。

微拍在开始做之前,就做过详细的市场和用户分析,他们发现优酷之类的大型网站主要盯着的是媒体性较强的内容,于是他们就决定不做那些媒体性强的内容,而是做那些没有什么明确意义的内容,以无聊人群和无聊内容为主要目标。大公司瞄准的是后置摄像头,微拍就瞄准前置摄像头做自拍。总之,微拍是做一些大公司不愿意做得范畴。

微拍的特色就是美女视频,一些90后自拍一些很无聊的自拍美女视频,这些视频完全没有任何实际的意义,但是却吸引力大量无聊的人事上去点击观看。做互联网和移动互联网应用的一个原则就是“永远不要低估无聊的力量”,当你觉得一个应用很无聊的时候,总会有一些更加无聊的人来使用这个应用。

这其中深层次的原因,据嘉宾说,他们自己也不是很清楚。但是有不少人在上面询问微信号码,看来还是满足了一些温饱之外的根本需求。

微拍满足了用户空虚无聊时的某些特定需求,那些新人类总有些老头儿、老太太们很难理解的需求,微拍很好的满足了这些需求,所以在吸引了很多新新人类的同时,也吸引了不少邪恶的大叔。

微拍的定位非常精确,对于用户心理的把握也十分准确。他们所有的界面,包括图标和操控的设定都是为了能够吸引他们的目标用户(90后小女生)。微拍也没有妄图依靠视频分享来建立自己的SNS社区,而是完全采用的新浪微博账号。那个从无到有建立SNS社区的大时代已经过去了,现在还想做这件事情,所需付出的成本将变得非常高昂,而且成功的机会不大。

对于微拍这个产品,他的用户群体和腾讯的QQ、空间、圈子、朋友、微信群体的重合度非常高,如果被腾讯模仿推出类似产品,或在某些相关产品中推出了类似功能,微拍能够成功抵御的机会微乎其微。这可能也是微拍使用新浪微博账号而不使用腾讯账号的一个根本原因吧。

总结

今天困扰着视频行业的有些问题,在未来将不再是问题。带宽、容量、流量的费用,这些目前困扰着国内视频行业的问题,应该都会随着时间的推移而逐渐被解决。可以预见,在不久的将来,存储介质的价格会不断的下降,服务器带宽资源和成本也会随着越来越多的数据中心如雨后春笋般在神州大地上逐步的建立起来而快速的下降。城市里面的带宽正在不断的变大,wifi的覆盖面积正在逐步的扩大,终端流量最终肯定会走向免费的。

当然也有一些问题解决起来会慢一些。虽然随着移动终端芯片的能力越来越强,多媒体内容可以采用一些更好的压缩方式。但是移动终端电池的容量在短期内还是很难提升的,而多媒体应用在耗电方面估计应该也是很难降低的。另外就是内容审核这个巨大的人工成本应该在短期内也是很难消除的。多媒体内容的计算机检索和基于内容的智能推荐在短期内也是很难有可以产品化的技术问世。现在通过文字和用户行为分析来进行内容推荐的方式,将成为拖累视频内容分享继续发展下去的一个重要因素。

任何应用的发展关键还是在于“如何抓住客户”,采用了多么神奇的技术,如果那不是用户所需要的,还不如不要。任何应用都需要为用户解决具体的实际问题。如果无法解决实际的、具体的问题,那么这个应用只能停留在实验室里面,为这种应用去做推广完全就是浪费。

除了微酷提到了因为用户使用了手机,所以他们的应用就是强社交应用之外,其他几家都不敢妄谈社交,只是在说应该如何增强用户和内容之间的互动,如何利用好现有的社交平台,特别是优酷拍客,他们投入了大量的人工编辑,对有限的内容进行人肉处理和推荐,让有限的内容尽可能发挥出更大的作用。利用现有的用户和sns上面的用户,尽可能的围绕有限的优质内容进行互动。微拍更是省去了自己的用户体系,直接使用新浪微博的账号体系。现在这个时代,还妄想要从无到有重新建立起一个全新的SNS关系,并不能说是完全的痴人说梦,如果不是在非常封闭的细分市场中积累个三五年,基本是不现实的。

在有大量的职业创业者和大型鲨鱼、鳄鱼、食人鱼参与的社交视频分享这个圈子里面,就像其他类似的圈子一样,应该还是有可能出现一些成功团队的。

以前总是以为,在国内,人力成本很低,用户基数非常庞大,各种规章制度不是很健全,通过一些手段可以将国外应用积累了几年才能达到的数字快速的达到。现在看来,考验一个项目的生命周期其实并没有缩短,还是需要三到五年的时间,只是和国外的差别是,别人在着三到五年中,逐步改进产品,积累用户;而我们则是先快速冲击数据,然后再逐步改进产品,积累真实用户。

周日去五道口沙龙分享的四位嘉宾最终是否能够有人在这里面脱颖而出,我们这里做预言实在是太早也太不负责任了,最终还是要看谁能够持续的改进产品,积累用户。当然,这个里面政策和运气的因素也是非常重要的。

五道口沙龙以后应该不会再去参加了,实在是比较无聊。

第162期IT龙门阵——移动云存储

 

2012年的5月29日,是第162期IT龙门阵。这一期的龙门阵是技术专场,按照惯例在盛大创新院北京办公室的御膳房会议室里面举行。

这一期的主题是一个非常热门的主题,至少要比前面两期的《模式识别》和《虚拟现实、增强现实》要热门得多。这期活动请到的嘉宾,有百度的移动云计算事业部架构师郭杏荣、金山的快盘业务负责人、金山云CTO杨刚和网易的有道云笔记团队负责人蒋炜航。他们分别向大家介绍了《百度网盘:百度云存储的技术演进》、《金山快盘,如何从零做大云存储》和《有道云笔记技术架构及OpenAPI设计》。

会议开始的时候,由本人作为主持人至开场词。

IMG 1460

 

由于话题很热,嘉宾的分量也比较足,所以这一期到会的人非常多。

IMG 1465

在几位嘉宾分享之后,是一个互动环节。三位嘉宾再加上来自百度的百度移动云事业部 高级产品经理张辉一起接受参会者的提问,当然,作为主持人,我利用先发优势,抢占了最开始的两个问题。

IMG 1564

 

会议结束之后,四位嘉宾的合影,从左到右分别是:张辉、郭杏荣、杨刚、蒋炜航。

IMG 1616

趁此机会,会议的工作人员也得以和嘉宾们合影留念。
IMG 1615

 

会议的进程基本就是这样了,下面是我从会议中听到的一些有趣的东西。

这期活动中有一点是非常有趣,那就是到场的两位嘉宾的观点是存在巨大分歧的,他们在现场虽然不好意思直接指着对方的鼻子进行争论,但是言语中所夹带的枪棒却是绝对不留情面的。这导致了现场的火药味一直是比较浓烈的。

百度的基础架构来自于多年的积累和演进

作为国内最大的互联网公司,百度的基础架构完全是在自己从头构建的。百度的存储系统架构,经过了多年的积累从1.0到2.0再到现在。一代一代的迭代过来,是最适合百度内部需求的一套体系。

百度现在就是在这套体系上,将部分功能包装开放出来,供开发者和用户来使用。

百度现在正在山西建设他们的新数据中心。百度将数据中心放在山西的理由非常有趣——山西是中国的产煤大省,山西就近利用这些煤炭资源进行火力发电,所以山西的电价比其他省份便宜。我记得以前也曾经听说过类似的故事,那就是黑龙江大力兴建云计算的数据中心,因为那里天气寒冷,在冬天可以节省空调电费。

现在看来,如果想要在中国做云存储、云计算,掌握自己的IDC资源还是非常重要的一件事情的。国外的云存储大多是建立在别人的基础架构上面的,但是国内的云存储服务,一上来就跳过了一开始的产品差异化竞争阶段,直接到达了中国人最擅长的价格战阶段。在这个阶段,将服务架设在别人的IDC上,对于成本的控制,肯定是非常难以接受的。

百度的云服务

百度的开放平台服务分为两种层次,一个层次是面向开发者的,使用这个层次的服务,需要向百度付费。开发者使用这个层次的服务,数据存放在开发者自己申请的账号上面。另外一个层次,是面向最终用户的。也就是说开发者开发了应用,这些应用必须要得到最终用户的授权才能使用,而数据存放在最终用户的账号上面,开发者的应用必须通过用户的授权才能够访问这些数据,实现自己的功能。

现在,ES文件管理器、美图秀秀等这些应用都使用百度面向最终用户的那一层接口,为他们原来的应用添加了云存储的功能。

金山的云存储之路

金山快盘是从金山WPS团队中分离出来的。金山云是在以金山快盘为基础新组建的一家公司,金山云主要是以金山快盘和金山WPS office为基础,为企事业单位提供云服务的。

金山不像是百度那样可以通过漫长的积累,逐步形成自己的存储架构。毕竟金山以前并不是一家互联网企业,所以他们想要做云存储,就必须要从头开始搭建自己的云计算平台架构。

金山研究了当前比较流行的各种分布式存储系统和分布式文件系统,认真分析之后,没有采用其中任何一种。而是扬长避短,根据自己的需求,开发出了完全属于自己的分布式存储系统和文件系统。

金山快盘应该算是这个圈子里面的先行者吧,所以他们拥有比较多的合作伙伴。腾讯的web qq里面允许用户在金山快盘和腾讯自己的网盘之间进行选择。

金山在不久的将来准备推出面向企业的版本,并为个人用户提供更高级的付费服务。

网易有道笔记的敏捷开发故事

有道笔记,是网易内部的一个孵化项目。应该和盛大创新院孵化的麦库笔记在各个方面都是非常相类似的吧。

从存储架构上来说,有道笔记要比金山和百度简单很多。在会议结束的时候,有道笔记的蒋炜航基本已经和百度的郭杏荣达成了一致,准备将有道笔记搬迁到百度的基础架构上去。

有道笔记是典型的小团队作战的产物。

有道笔记利用现在十分流行的敏捷开发方式,在管理着他们的团队。他们的一个周期是一个月,每个周期都会确保完成一定的功能指标。

关于敏捷,这里就不多讲了,那是一个现在十分热门的话题。为什么要敏捷,如何敏捷,敏捷带来了什么结果等等,研究的人太多了,感想和成果也太多了。感觉有些像皇帝的新衣,没有任何人说这个东西不好。而在正常的情况下,一种方法总是应该有两面性,总会有其适用和不适用的环境。如果所有人都说一种方法很好,那么这里面就肯定有问题。

有道笔记的核心功能以及外围功能的选择

蒋炜航讲到,他们做笔记类应用的时候,首先关注的是核心功能。作为笔记类软件的最核心的功能,肯定是编辑器。一种好用的,所见即所得,在所有平台上表现一致,支持图片等媒体的富文本编辑器。

在客户端软件时代,这是一件非常麻烦的事情,因为那个时代的编辑器都需要考虑图片等媒体内容的存储问题。而且,那个时代比较流行的是RTF格式,以及各种RTF的变种。

在web时代,这个问题一下就解决了,html本身就是一种富文本格式,对于常见的格式需求基本上都可以满足。而且,html里面的图片和其他媒体内容并不是存放在html文件里面,而是通过特定的标记引入。现在开源的html编辑器非常多,而且效果都相当不错。

在尝试了很多方式之后,他们决定在客户端和服务器端统一使用web编辑器,于是新问题就产生了,他们没法确保客户端运行的环境中浏览器的类型和版本是一致的,也就无法保证同一个编辑器在不同的浏览器以及浏览器版本中所表现出来的体验是一致的。最终有道笔记决定直接在客户端里面打包浏览器,现在的有道笔记中嵌入的是chrome的内核。

有道围绕着个人笔记这个核心功能,又逐步开发了白板拍摄功能和手写功能等辅助功能。现在很多产品在进行辅助功能选择的时候,喜欢将各种乱七八糟的东西都加进去。有道做这种选择的时候,是围绕笔记用户的核心需求,谨慎挑选。那些距离核心需求比较远的东西,他们不会在自己的应用里面实现,而是留出了开放的API接口,让其他人去实现。他们自己只去做那些核心的功能。

有道笔记即将推出他们自己的开放平台。在过来参加活动的当天,有道笔记的用户数刚好达到300万,他们准备在不久的将来,正式开放他们的API。只有拥有了用户,API才能为开发者带来利益。

二进制文件的增量更新

百度和有道笔记都提到了,在他们的系统中,内容是进行增量同步的。当文件的一部分发生变化的时候,他们能够找到发生变化的部分,然后只将变化的部分传输到服务器或客户端。这样可以极大的节省带宽,适应移动应用的需求。

现场一位参会者希望了解这到底是如何实现的,有道的蒋炜航直接回答,这是他们的技术机密。百度的郭杏荣说,大家可以去查看一些公开的论文,应该会有所收获的。

云存储的成本之争

按照百度的计算,他们自己建立数据中心之后,云存储的价格,计算上带宽应该在5元/G/年的样子。他们希望摩尔定律能够在存储这个领域里面同样发生效应。那么在未来的两三年中,云存储的价格应该能够下降到每年每GB,一元到两元的样子。

金山的杨刚号称,他们采用了一些独到的技术,可以将存储成本降低到别人根本无法想想的地步。言下之意应该就是他们的存储成本远远低于百度刚刚提出的数值,遗憾的是他既没有介绍那独有的技术,也没有具体说他们的成本具体降低到了什么样的程度。他相信在不远的将来,金山能够将云存储的成本降低到和物理硬盘的存储成本差不多。

对于云存储的成本可能会降低到物理硬盘成本这一点,百度的嘉宾认为这是永远也不可能实现的。

云存储的商业模式之争

金山希望能够复制dropbox的道路,最终依靠4%左右的付费率,使得整个云存储业务实现盈利。金山希望能够通过让更多的人,负担更少的钱,来实现盈利。dropbox的收费对于大部分中国来说,还是贵了一些。所以金山希望能够降低成本,降低每一个用户需要支付的费用,同时设法提高支付的比例。

百度则认为,在中国不可能成功复制dropbox模式,现在的同质化竞争已经太激烈了。一旦收费,就意味着流失用户。所以,百度准备发挥他们的长处,依靠流量和数据来赚钱。永远为用户提供免费的服务,依靠广告再慢慢将前期投入和后期成本背回来。

在现场,百度的张辉讲了一个有趣数据,那就是evernote的第一年用户,付费比例只有不到0.4%,而累计使用四年以上的用户,付费比例能够达到惊人的25%。张辉和我都是三四年的evernote用户,也都是付费用户。这最终说明,做此类应用,大家比拼的是生存能力。必须要要熬到四年、五年不死,才有盈利的可能。

百度的盈利模式

百度的郭杏荣和张辉反复提到了百度的流量变现能力。百度拥有很强的流量和广告变现能力。他们每年都会在百度联盟内部分发大量的现金,以感谢那些为百度带来流量的合作者。这笔返还现金去年达到了20亿人民币,累计已经达到了40亿人民币。

郭杏荣向有道的蒋炜航承诺的也是,当有道搬迁到百度上面之后,完全可以通过百度的流量变现方式,得到收入,并最终可能实现盈利。

商业的竞争和合作

虽然现场金山和百度剑拔弩张,但是他们两家也都提到,优酷和土豆这一对儿老冤家都能够通过并购实现整合,所以未来的事情谁也说不好。说不定未来的某一天他们之间也会发生一些在现在看来完全无法想像的事情。

如何面对国外的竞品进入

现场有一位参会者在互动环节问了一个问题,现在这些产品,都有国外的成功原型,当这些我们所模仿的竞品进入中国市场的时候,现在这些产品应该怎么办呢?特别是印象笔记作为有道笔记模仿的原型,已经拿到了中国的宽带基金的投资,高调的进入了中国市场。

有道的蒋炜航说,这其实没有什么可怕的。Evernote虽然在国际上很成功,但是在国内的用户其实很少,只有不到100万。国外产品的进入,可以很好的教育市场,培训用户,让人们真正了解到,什么才是笔记类应用,以及应该如何使用笔记类的应用等等。国外精品一旦进入中国,就会和国内的产品站在同一个起跑线上,同样运行在墙内,同样受到有关部门的监管。

百度的郭杏荣在这个时候抢过了话筒,他说,国际上的精品进入国内,这没什么可怕的。他们(百度)的竞争对手也是很强大的,他们(谷歌)来过了,然后又走了。百度已经战胜了他们的竞争对手。全场的嘉宾和参会者听了之后,先是一愣,然后大多满脸复杂的神情,会场上响起了不是很热烈的掌声。大多数人心里的感觉应该都是怪怪的。百度的这种说法从某种意义上来说,不能说是错了,但是总感觉有些胜之不武。

 

移动云存储这一期活动,现场异常火爆,现场嘉宾之间有合作也有竞争。我很期待在将来能够看到当天的嘉宾们之间能够上演一部激情澎湃的爱恨情仇。

下一期IT龙门阵的技术场,应该是地图专场,6月19日下午7点半到9点半,老地方见。详细情况还要等IT龙门阵官网的通知。

 

我们的开源活动——北京站活动

作为原Borland大中国区的Evangelist,我个人其实对于开源没有什么感觉的。Borland基本上可以算是毁在开源上面的。并不是说JBuilder被Eclipse所取代,而是当时Borland公司认为应该支持那些商业的J2EE框架,比如当时的BEA Weblogic、IBM WebSphare、Borland Enterprise Server等这些框架,而不应该去跟随那些Hibernate、Spring之类的开源框架。结果最后发现,商业框架被开源框架所击败了。JBuilder最后因为跟随商业框架,而忽视了对开源框架的支持,最终被Eclipse挤出了市场。

盛大一直都是很支持开源的,不但自己有一些小型的开源项目,也积极的支持国内的开源社区。这次就是在上海和北京提供场地,让开源社区、开源项目开发者和关心开源的人们有机会能够聚集在一起,一起来讨论关于开源的一些话题。

OUROS

由于会议室的座位一共只有一百二十几个,报名者却接近两百,作为组织者,我事先发了微博,来得晚的朋友,就不好意思,只能站着了。于是,很多参会者很早就来到了会场,希望能够占到一个好位置。吸取了上次NTalks活动的教训,我们提前申请了延时空调。空调是从下午2点供应到5点,活动基本上是6点多结束的。在最后没有空调的一个小时里面,大家的节奏明显的加快了很多,现场也更加热烈了。

软件行业协会为这次大会准备了不少礼品,还为参会者提供了矿泉水。这对于穷惯了的中国开源工作者来说,确实是一份意外之喜。照片上的那位开源工作者在搬运这些东西的时候,脸上堆满了发自内心的笑容。

IMG 2759

 

大会的主持人是一对帅哥美女。只是来自软件协会美女好像注意力不是很集中的样子。

IMG 2816

 

会议由两个部分组成,那就是4个30分钟演讲,和17个5分钟演讲。

由于话题都是投票选出来的,所以分享的过程,参会者们的反响还是非常热烈的。所谓投票选择话题,指的是在大会开始之前,大家先汇集想要讲的话题,然后由参会者来投票,选出最感兴趣的内容。得票最多的4个可以讲30分钟,然后有一些可以讲5分钟的话题,由于现场的气氛非常热烈,于是就多放了几个5分钟的演讲进去。

下面是部分演讲者的照片:

IMG 2844

IMG 2864

IMG 2912

IMG 2929IMG 2938IMG 2954IMG 3042

这里就不将所有演讲的照片都放上来了,实在是太多了。再展示几张现场的照片,看看参会者们的热烈回应。

IMG 0044

 

 

开源工作,特别是在中国确实是一项非常艰辛的工作。所以从事开源工作的人,大多是一些具有很强乐观精神的人。看他们笑的多么灿烂啊?

IMG 2906

大家都很善于在艰苦的环境中发现美好的事物,为自己的工作添加一些色彩。

IMG 2867

我在会场上主要是负责现场的微博直播,用我的New Pad做微博直播。

IMG 2874

 

由于要一边听会,一边发微博,所以我只能找一些自己觉得比较有趣的点记录下来,没有办法将全部的要点都记录下来。

全职开源开发者的生活状态

第一个演讲的,也就是投票的时候得票最高的一个话题,是探讨一个全职开源开发者的生活,或者更确切的说是生存状态。这样的一个话题能够被最多的人所关注,正好也能够说明,国内的开源开发者们当前最关心的到底是什么。大家还在为了生存和生计而担忧,必须在开源和生活之间做艰难的选择。

不过演绎这个话题的@Freeman小屋 同学其实并不能代表最广泛的中国开源开发者。所以他上来也首先为做了“标题党”而向大家表示道歉。演讲者确实是一个全职的开源开发者。只不过,他是受雇于国外的大公司,在做着开源系统的开发和维护工作。有人雇佣他,付给他工资,让他做开源。他现在每天在家办公,经济危机之前,他的公司在北京设立了研发中心,现在则只能维持一些在家办公的雇员,在继续维护他们的开源项目。

大部分在国内为开源项目做贡献的人,都是在利用有限的业余时间,非常艰苦的坚持着。一些真正的全职开源开发者,甚至过着朝不保夕的生活。

开源的商业模式

开源并不仅仅是一种软件的分发方式,而是一套完整的商业模式。国外有不少公司是围绕着一些开源软件经营着的。当然他们不会像中国的某些公司那样,将开源软件封装成自己的商业软件进行销售,那是不道德的违法行为,应该受到道德和法律的制裁。这些国外的公司,主要是提供开源软件的安装、调试和咨询顾问方面的服务。使用开源软件,如果需要用户自己去阅读全部的代码和文档,然后再找到,并调整其中某些特定的代码,使其能够适应客户自己的环境和需求,这并不一定比直接使用商业软件更加省钱,毕竟这些工作都需要软件工程师付出相当的劳动,而软件工程师的工时成本是不低的。那么,最经济的使用开源系统的方式,应该是适当的购买商业服务,以加快开源系统商业应用的过程。国外很多提供此类服务的公司,他们会雇人来对开源系统进行维护。

国外一个开源系统的主要负责人,自己养育了6个孩子,还有一条游艇。当演讲者讲到游艇的时候,激动得双眼突出、满脸通红,他讲过之后,还特意的再次重复道:“游艇啊!!!那是游艇啊!!!”

国内现在已经出现了被国外提供开源服务的公司雇佣的员工,也出现了国内提供开源软件服务的本土企业,只是不知道这些本土企业的生存状态如何。现场询问所有的参会者,当你们部署开源系统遇到问题的时候怎么办的时候,他们没有一个人想到要去购买商业服务的。

开源工作者的荣誉

成为一个顶级项目的核心贡献者,就是开源开发者们所追求的最大荣誉了。现场的那些演讲者和参与者们,互相介绍的时候,不会去说毕业于什么学校,在什么公司里面任什么样的职位。而是会介绍自己在什么项目中担任什么角色。如果一个人能够在很多顶级项目中,都担任排名非常靠前的贡献者,那么这个人就会受到整个开源圈子的尊敬。

每一个项目都会有很多贡献者,但是每一个项目也都必然会存在着一个核心的贡献者。用讲演者的话来说,这个人就是一个超人,他一个人所做出的贡献绝对能够超过其他所有人贡献的总和。开源项目通常是采取比较松散的机制进行组织和管理的,想要在一个项目中拥有话语权,就要比别人做出更多的贡献,提交更多的有效代码,书写更多的文档,修改更多的bug。这是一个绝对的,尊重实力的地方。

既然每个项目中,总会存在一个超人,那么当超人离开之后,项目通常的下场就是死掉。现场有一位嘉宾分享的例子就是,他们一直在使用一个开源项目,后来那个负责的日本人被微软挖走了,于是项目就停滞了。演讲者只能在原有项目的基础上,重新开始一个全新的开源项目。

开源软件的文档和英语

光有软件和代码,那并不是开源软件。文档也是开源软件重要的组成部分。没有文档就不能成为一个完整的开源软件。这些文档通常是英文的,也有一些国内的开源软件,文档是中文的。国际上的开源软件,通常都是使用英文来书写文档的,这样可以方便其他国家的人参与进来。

国内的人参与开源项目最大的障碍就是英文,如果不能很好的理解文档里面的内容,不能很通畅的和国外的开源开发者进行沟通,那么使用开源系统将变得非常痛苦。

也有不少外国人参与中国的开源项目,参与这边项目的外国人要做的第一件事就是要起一个中文名字,否则大家不知道他的名字怎么读,非常影响沟通。现场就有一个演讲嘉宾,他们项目费了很大的力气将文档翻译成英文,好不容易吸引了一位国外的开发者,结果那个名字没有一个人会念。

我参加了不少活动,也见到了不少生活在中国的国外开源软件开发者。比如吉拉德就是其中的一个。他虽然不会讲中文,但是却有一个中文名字,还印制了中文的名片,名片上标记的是他的新浪微博账号@gbraad 。

IMG 2805

 

 

大公司和开源项目的关系

现场有些演讲者本身就是来自一些大公司。其中一个百度的云存储开发者就讲到,大公司是不会直接使用开源系统的。大公司会在开源系统的基础上,重新构建自己的服务架构和体系。他在阿里就是负责云存储的开发,到了百度也还是做同样的事情,他自己的开源项目也是云存储架构。但是,公司里面的系统,从底层开始就是自己开发的定制系统。百度使用的操作系统、文件系、数据存储系统,都是定制化的,开源系统很难在这种环境下架设。

很多中小开发团队确实是在大规模的使用开源系统,而且其中80%以上的人,从来都没有下载过开源系统的源代码。大公司很少这样做,他们会谨慎的选择所需要使用的开源软件,然后将代码读透,通常会将绝大部分代码都重写一次。最终形成完全属于自己的自主开发系统。

一位来自网易的开源开发者说,他经常在工作中直接使用他自己的开源项目。但是网易的老板丁磊直到现在也不知道他经常用到的系统其实是开源的。

大公司很少直接利用开源软件,他们通常会选择参考开源软件,从头构建自己的私有系统。

现场有一位来自Nokia的QT社区的演讲者。QT就是一个Nokia放出来的开源系统。这应该也是大公司利用开源商业模式的一种常见方式吧。将那些需要其他开发者参与的部分开源出来,吸引开发者参与其中。

学生和开源和开源社区

一位分享者讲到,他们的开源系统中起到关键作用的是学生,学生的时间比较宽裕,学生能够为开源软件投入更多的精力。但是,他也讲到,学生在开源软件中所起到的最大作用是测试。真正的开发,还是要靠超人和那些核心贡献者。
那些参与开源项目的学生,最终大多都进入了国际化大公司工作。毕竟开源是聪明人的玩具,能够对开源系统有所贡献的人,智力水平和能力应该都还是不错的,至少英文不会太差。
很多开源软件都有社区,也存在不少包含众多开源软件的综合性社区,这些社区是引导大家学习和使用开源软件的内容生产、聚集、沉淀的地方。
每年都会有一大批的学生像蝗虫那样冲进这个地方,没有很好的搜索,就提出很多重复的,没有建设性的问题。很多社区就是被这些蝗虫彻底的击溃了。
在开源社区中提问题是有技巧的,hello world类的问题是不可以随便问的。如果所提的问题对开源项目是有建设性意义的,那么大家还是很愿意帮忙解决的,而且是不需要付费的。但是如果是那种重复性的,没有建设性的问题,是不会受到欢迎的。如果一定要问一些低级问题,可以考虑购买商业服务。
不断的有新人加入,在那些老鸟的帮助下,快速的成长起来,这就是开源和开源社区成长的原动力。

开源软件和软件学习

想要学习软件,再也没有什么比看开源软件的代码和文档更有价值的东西了。有什么不理解的地方,还可以到社区中去搜索,如果实在是找不到相关的资料,更可以去直接询问项目的开发者。

那些能够对开源社区有所贡献的人们,都是一批最聪明的、能力很强的家伙,这些家伙进入大公司之后,所作出的贡献也都很好的证明了这一点。

 

 

开源是一个在国外已经发展得相对比较成熟的商业模式。但是在国内这个商业模式还非常的不成熟,这还需要很多参与开源的人持续的努力。

参加第四届中国云计算大会

上周参加了云计算大会,更准确的说法应该是我到云计算大会上面去逛了逛。在会场看到了不少熟人,看来大家都在关注云计算这个时髦的主题。

我主要是在外面的展示区转了转,并没有到会场里面去听那些topic,从我看到的东西上来说,现在大家所说的云计算基本上可以分为几个类型,这里并不是要说IaaS、PaaS和SaaS,而是中国人自己的云计算。

第一、IT基础架构建设

很多到现场去吹嘘云计算的厂商,其实就是传统的硬件厂商,他们讲得就是如何利用远程管理和虚拟化技术,来帮助那些大型企业或机构,管理他们的服务器资源,有些还能够对桌面资源进行有限的管理。

第二、传统软件

所有的传统软件,不论是医疗、还是公共设施管理、还是其他的行业软件,只要是有服务器,可以进行远程访问、数据同步的,就都算是云计算了。这些系统,有些使用了云计算的底层架构(IaaS),有些则按照云计算的按照实际使用来计量付费的方式调整了服务条款,当然也有些则基本上没有任何改变。这些软件已经堂而皇之的将自己称作是私有云的案例了。

第三、硬件,特别是服务器厂商

做云计算,肯定是离不开服务器的,那么云计算大会里面摆放一些服务器,装点一下门庭,总是需要的。

第四、公有云

这次主要是看到阿里云的展台,他们还在不遗余力的推广他们收购了万网之后推出的公有云平台。这一块的市场,确实需要教育,早期的耕耘者不一定能够在市场成熟的时候享受到自己播种的果实,但是早期的耕耘者总是值得尊敬的。

第五、云存储

云存储大概是现在广大用户和大多数企业、机构们最能够理解和接受的一种云计算服务模式了。现场展示的,大多是一些私有云的技术。也就是帮助那些机构和组织,建立内部的云存储和网盘,以便方便他们的办公使用。

第六、和云有关、无关的其他

大会上还有一些和云计算有关的东西,比如和云计算相关的培训。帮助毕业生能够掌握一些云计算相关的知识。以及一些政府代表团,展示当地政府如何扶植云计算事业等等。

 

国人其实还没有从云计算的迷茫中清醒过来。由于国家的大力投入,那些聪明人们,纷纷的将自己原有的业务,包装上了云计算的外衣,这不可避免的更加加剧了国人对于云计算的迷茫。也许再过上一两年,有了新的热点,那些聪明人转向了新的热点,国人们才能够看到什么才是真正的云计算吧。只是不知道到了那个时候,云计算大会上还能剩下哪些企业,或者那个是是不是还能够有云计算大会?

IT龙门阵这个活动目前主要分为两个地点举办,一个是在酒店里面,还有一个则是在北京盛大创新院。酒店里面一般是请一些老总们来讲故事,在盛大创新院则主要是找一些技术负责人来将一些前沿技术。大家各取所需,不同的人群对于不同的场次感兴趣。

5月22日的那一期IT龙门阵,是由珠海金山办公软件有限公司的副总裁兼CTO,章庆元来为大家讲述金山的一些故事。虽然标题是wps如何迎接互联网时代,但是内容其实主要还是一些故事。

DSC 0452

会场的情况就像照片里面拍到的那样,章总一直坐在那里慢慢的讲着故事,坐在后面看不太清人。

wps从dos时代的辉煌,逐步的走进了windows时代的低谷。因为跟不上形式,逐步的被市场所遗忘。在困难的时候,wps的研发团队只剩下了不到10个人。任何企业,如果跟不上形式的话,即使这个企业曾经多么辉煌,都有可能被时代所抛弃。wps的没落,除了他们自己跟不上形式之外,还有一个原因就是office的大举进入,而且在盗版横行的情况下,虽然微软并没有通过office在中国的普及赚到多少钱,但是他们却成功的封杀了所有的竞争对手。

在几乎山穷水尽的时候,政府采购挽救了金山。可以说成也萧何,败也萧何。微软在office普及之后,希望能够从中国收回一些操作系统和办公软件的销售利润,于是就推动美国政府向中国政府施压,要求中国政府能够采用更加严厉的手段来打击侵害知识产权的行为,至少在政府机构和大型国有企业里面,能够逐步的实现正版化。政府一向是非常顾全大局的,于是他们就开始逐步的采购操作系统和办公软件。以确保逐步做到每一台办公电脑都能够至少有一套正版的操作系统和一套正版的办公软件。在政府采购的招投标过程中,大批的国产软件商被救活了。其中就包括金山,美国人最终搬起石头砸了自己的脚。

在得到了一定的资金之后,wps正式走向了面向微软的全兼容时代。界面和操控全兼容,文件格式全兼容,甚至是开放的API也做到了全兼容。这样的做法,使得wps能够有一定的市场份额,虽然这种做法中有很多不合法的地方,严重的侵害了美国人的利益,但是没有关系,天朝毕竟不是一个法制社会,于是wps就这样重生了。

随后的几年,wps基本上属于是一种版权交易的中间计件单位。虽然有人在开发,也确实有人买卖,但是却没有人真正的使用。那些购买了wps的政府机构,很少有人真的去使用这个软件,他们还在用着盗版的office,但是,至少在报表上,他们已经拥有了一套正版的办公软件,政府向美国人能够保证的也仅仅是每台办公电脑拥有一套办公软件,而不能保证不去盗版。国人的智慧是无穷的,官员们作为最先进的那一批代表,使得美国人的各种伎俩都纷纷转化成为天朝不断前进的助力。

wps的团队还是清醒的,他们知道如果仅仅是作为版权计量单位,没有用户真正的使用他们的软件,最终他们还是无法跟上新的潮流。于是他们决定将面向个人的版本免费。这样的话,他们在拿着政府采购资金的同时,真正的得到了一批用户。这些用户在使用wps软件的时候,发现了很多问题,金山非常认真的对待这些问题,将问题逐步的解决掉,随着不断的打磨,wps确实变得越来越好用了。

章总讲到用户的热爱和帮助的时候,讲了一个故事。一位用户直接将他们做得当月工资发放表格发了过来,其中有些格式不是很正确。金山发现了这个情况,马上安排人手对这个问题进行排查和修补,同时反复交代接手那些敏感文件的员工,一定要做好保密工作。

说到互联网,金山对于新的互联网下的办公软件,以及新的协同方式都不感兴趣。他们觉得类似与google document和zoho那样的东西,并不符合中国的国情。他们会持续观望这个市场,但并不会在短期内投入到这个市场之中去。这也许是他们又一次跟不上形式的开始吧。那些政府机构确实不会很快的转投到这种互联网上面的开放办公方式上来,但是那些真正使用wps软件的个人用户和小公司、小团队用户,正在逐步的向上面迁移。就像多年前office打败wps那样,首先动起来的肯定是那些喜欢使用先进技术的个人和小型团队,然后才逐步的影响到政府机构。这种新的办公方式有一个特点就是,对于个人和小型团队来说,几乎是免费的。即使对于那些大型机构来说,他们所收取的也仅仅按需使用的服务费用。不知道当金山醒悟过来之后,这次准备怎么追赶新的敌人。

在这一点上章总的解释是,传统的企业,很难背叛他们的固有业绩。微软如此,他们也如此。他们无法舍弃那些办公软件销售的利润。那些销售办公软件的top salse们,在公司里面的话语权绝对要比那些希望创新求变的人高出很多。微软在今年就要推出他们的web office了,不知道这是否能够给金山敲响警钟。

金山自己的互联网战略是这样的,首先是快盘,他们希望能通过快盘实现办公软件的互联互通。然后是他们的模版网站,金山积累的大量的模板,他们的模板网站拥有巨大的访问量。但是,这个网站完全是以免费的方式在运营着,并没有引入比较新的store模式,那些贡献模版的人,无法从中得到收益,那么以后这个东西是否能够一直持续的红火下去,就很难说了。

金山也进入了移动互联网领域,他们现在推出了Android版本的kingsoft office,还没来得及试用。

金山的国际化路线还是比较值得称道的,作为一家大型企业,wps已经被翻译成了26种语言,在世界各地发行。这是那些创业公司所无法比拟的。

从跨平台的角度上来说,金山wps,目前有windows和linux、android版本,Mac版正在开发和测试,不久的将来应该能够推出。

金山一直在做着自己最擅长的事情,那就是办公软件和工具的开发,以及持续的改进。他们从来也没有打算进入OA办公市场。做自己最擅长事情,坚守清晰的边界,绝不侵犯合作伙伴的空间。在这一点上,金山在软件行业中绝对堪称典范和楷模。不过就像所有的大型企业一样,总会面临着如何背叛自己固有利益的问题。每过几年,就会有新的模式替代他们原来的模式,如果想要迎合新模式,就必须要背叛他们固有的利益。毕竟新模式通常都是在充分的研究了固有的模式之后,针对固有模式提出的。

希望金山能够在一次一次的挑战中继续生存下去吧。

NTalks是盛大创新院长期赞助的一个创业沙龙组织,主要是帮助创业者了解和学习各种创业过程中需要用到的知识和技巧。17Startup更像是创业者和投资者之间的桥梁,NTalks则更加贴近创业者。

这一期(2012年5月19日)的NTalks是在盛大创新院的御膳房(会议室名称)里面举办的。这个会场,前面做了很多期的IT龙门阵、CTO俱乐部、PMI项目经理活动。今年还做过一期CloudJam,参与者在里面连续做持续33小时的开发编程。前面由于天气凉爽,从来没有申请过延时空调,这个大厦的物业比较精打细算,每个工作日早晨9点到晚上7点之外的时间,大厦里面是没有空调的,如果需要开空调就必须要缴费申请延时空调。前面的活动都没有申请过,这次NTalks活动准备的时候,我们也没有想到要去做这个事情。于是参加这次NTalks活动的嘉宾和听众们就要稍微忍耐一下了,我上午准备会场的时候还不觉得热,但是下午一百多人进场之后,就显得有些闷热了,很多人都不得不将腾讯微博发的小册子当作扇子来用。

会场的气氛还是非常火热的,我参加过NTalks的活动也有不少回了,像是这次这么火爆的并不多。这主要的原因是这次分享的嘉宾讲的干货比较多,讲得都比较实在。腾讯微博是本次活动的合作伙伴,主持人也是腾讯微博出的,有些嘉宾还比较给腾讯面子,当然也有的就直接说得主持人满面霞红,然后不得不站出来强调,不要妖魔化腾讯。现场的交锋比较激烈,再配合上闷热的会场,气氛自然就更加火爆了。

 

由于使用的是手机拍摄,所以非常抱歉这次的照片品质稍微差了一些。而且为了开窗通风降温,没法拉窗帘,所有的照片都是逆光的。

NTalks 御膳房 

活动的开场依旧是NTalks的主办者Cindy Jiang的开场。她的普通话水平依然,估计是提升无望了。她做这个活动已经有不短的时间了,还就着这个活动做了一个产品,产品的名字叫《幸会》。她也算是一个创业者。所以对于创业者的所思所想有着设身处地的感受,这大概也是她的活动那么受创业者欢迎的主要原因吧。

 

NTalks 御膳房 

前面微发现的嘉宾没有拍下来,上图是第二位分享嘉宾指智的创始人。这个人原来是微软的,很早就有过一次失败的创业经历,这是他的第二次创业了。他和前面的微发现都是做机器学习的,也就是说是做爬虫加智能推荐的个性化阅读系统。

 

NTalks 御膳房

第三位上来分享的是开开的,这里面所有做分享的四位项目中,开开是用户数最多的。用户数已经达到了几千万,也算是国内做得比较成功的一个LBS应用了。

 

NTalks 御膳房 

最后一个分享的家伙倒是移动互联网圈子里面的老人了,很多会议上都能够看到他,这一次他带来的话题其实和这次的活动关系不大。这个家伙做了一套类似于PhoneGap的html5的开发工具,可以开发出跨平台的移动应用出来。作为一家中国公司,他在这个工具上加入了广告联盟,加上了国内社交网站的分享等功能。据说还加了个编译器或加速器之类的东西,可以有限的提高html5应用的性能。他之所以出现在这里的原因,仅仅是因为他和主持人是朋友。

 

NTalks 御膳房

在四个人讲完之后,主持人组织了沙龙问答。将四位嘉宾放在前面,然后严刑拷打。希望能够从他们身上榨出更多的干货出来。

 

NTalks 御膳房 

现场非常热烈,最后台下的观众直接和嘉宾们沟通,主持人跑到后面去打台球了。直到很久之后,大家才发现台上少了一个人。

 

活动的基本流程就是这样的了,除了那个买开发工具的,我前面稍微描述了一下,因为实在是没有什么意思。其他的部分还是相当有趣的,对于那些创业的人非常有启发。下面是我听到的一些非常有趣的点,以及我个人的一些观点。顺序被打乱了,但是我会将个人观点和嘉宾或主持人的观点分开的。这些点,有些是嘉宾分享的,有些是主持人点评的,也有些出现在后面的问答互动环节。

  • 开放平台和开发者之间的博弈

这次活动是腾讯微博赞助的,主题就是创业者如何利用社会化媒体来提升自己产品的用户数据。第一位分享者上来就说了一句大实话。我朝的社交媒体、开放平台和国外是非常不同的,是非常有我朝特色的。开发者虽然也是像国外一样,通过社交平台的开放接口,使得自己的产品具有社交属性。但是我们的开放平台和开发者之间的关系总是相互算计,开发者希望从开放平台多搞到一点儿东西;开放平台则是在不断的生长,挤占原来开发者的空间。我朝的开放平台的边界总是十分模糊的,就像是天朝的公路和市政建设一样,发展得飞快。他们就像有关部门那样,总是在后台默默的注视这那些开发者,如果其中有什么应用方向被他们关注到了,那么这一类应用的下场总是非常悲惨的。我记得他说道相互算计的时候,很多参会者都向来自腾讯微博的主持人行注目礼,主持人的脸色不是很好看,也有可能是热的。

  • 新浪微博的用户更多,但腾讯微博的用户更喜欢点链接

看到了主持人的脸色变化,分享嘉宾赶忙抛出了一些对腾讯有利的数据。在他们的系统中,如果用户想要将内容分享到社交媒体上,就必须要得到社交媒体的授权。这些授权中,来自新浪微博的要比来自腾讯微博的多。但是分享出去的内容,被点击链接带回到他们系统上的,腾讯微博上的数据要远远高于新浪微博。具体原因很难分析,但是可以确定的是,腾讯微博的用户群体对于系统的推广,特别是内容聚集类应用的推广价值要比新浪大很多。

关于分享,他还讲到,分享出去的东西,下面就写着来自什么什么应用的分享。很多应用却觉得还是不够,一定要在内容里面再加上一段自己的签名,即使上面都写满了应用的名字都不会感到满足。他们总是非常急功近利的希望增加曝光率,这其实极大的影响了用户分享的原动力。用户如果想要分享,那么就一定要尽量少的打扰用户,尽量不要在用户分享内容中添加不必要的宣传和广告。

  • 关注核心用户

这是主持人问的一个问题,如何吸引核心用户?所有嘉宾都标识,核心用户是最重要,这些人的比例不高,但是却最符合应用的核心理念和价值观,核心用户会产生出优质的内容,从而吸引那些普通用户来使用该应用。一开始的核心用户,可以是邀请的,但其实很多开始阶段的核心用户都是运营人员客串的。这在后面我问的一个问题上面,他们终于说了实话。但是,他们也反复强调,他们所有人都会非常关注微博或其他社交平台,随时随地的发现和挖掘他们的核心用户。如果他们在微博上发现了某个用户的言论和行为非常符合他们的产品定位,那么他们就会想方设法的邀请这个用户成为他们的核心用户。不断的发掘和聚集核心用户,是移动互联网和互联网应用成功的不二法门。记得盛大文学刚刚起步的时候,一大堆的编辑就泡在各种论坛和文学站点上,拉拢那些他们喜欢的作品和作者。记得当时在幻剑书盟上有一本小说,叫做《曲线救国》写得相当不错,被起点的编辑盯上了。但是幻剑书盟不放,于是那个作者玩儿了一招儿狠的,在幻剑书盟的小说中写道,刺客刺出一剑,主人公死了,小说就结束了。然后这个家伙到起点中文上开了一本叫做《二鬼子汉奸李富贵》的书,上来就写,那一剑过后,主人公昏迷几天醒来,发现自己没有死,于是小说又接着写下去了。这就是核心用户争夺的一个血淋淋的案例。

  • 用户如果第一分钟找不到有趣的内容,第二分钟他们就离开

在中国创业是非常痛苦的,任何一个方向都会有几十个甚至更多的同类应用,中国的用户也是最没有耐心的。必须在他们使用应用的第一时间,将能够吸引眼球的内容推送到他们的面前,否则用户的流失率是非常吓人的。

  • 应用的前几个版本最为重要

当有一位美女听众问,第一批用户是如何做出来的?用户是怎么从0增长到1万的?几位嘉宾给出了不同的答案。

首先,第一个版本和前几个升级一定要做好,如果软件本身做不好,那么这个开头是无论如何也开不起来的。就算是花钱推广,用户数字涨上去,这些用户也会飞快的流失掉,那些推广的钱完全就浪费了。

  • 第一批用户最重要的来源是AppStore

另外一些嘉宾给出的答案,基本都是,第一批用户来自AppStore。这同样取决于软件本身的质量,以及AppStore或者是Market的排序算法。只要能够在排序算法上排得比较靠前,那么达到最初的一万用户应该并不是十分困难的一件事情。前提还是要把软件做好,所有的嘉宾都表示,在这个阶段花钱去做推广是非常不划算的,他们是绝对不会做这种事情的。当然,运营是要做的,也就是说要做各种运营活动,这是属于产品本身发展的一部分。

开开的嘉宾说,在微博上送礼物也是一个非常有效的方法,曾经有人在上面送手机,每个小时两台,效果非常好。以前都是送IPhone,中间有一段时间不是那么时兴送IPhone了,现在好像又时髦起来了。当然,这种手段要在合适的时机投入,关于时机的问题,开开的嘉宾在回答另外一个问题的时候,给出了明确的解释。

  • 口碑转播最重要

在一个应用推广的早期,最重要的就是口碑营销。人性非常奇怪,如果别人都说一个产品如何如何好,我们可能会去试用,也可能不会;但是如果别人说什么什么产品不好用,我们通常是不会再去尝试使用这个东西的。所以,他们都非常重视在社交媒体上搜集针对自己应用的批评、建议和负面评价。如果能够将问题解决掉,那么还可以趁势运营一把,变坏事为好事儿,对于产品的推广还是有一定作用的。如果无法消除影响,那么也要想办法私下找到这个提出意见的人,将问题控制在最小的范围内。

  • 接入的平台一定要全

每一个产品都希望自己形成社交,那是不可能的。但是没有社交功能在现在这个时代,那就更加不可能了。产品通常是通过接入现有的社交平台来实现社交功能的,既然要接,天朝又没有像美国那样facebook和twitter一家独大的态势,那么好吧,要接就都接上,一个也不少。开开就是尽可能的接所有能够接的社交平台。

  • 冷启动

有一个问题是我问的,所以我印象比较深刻。我的问题是,现在各种应用基本上都是希望依靠内容拉动用户,然后再依靠用户产生内容。那么内容和用户就成了鸡和蛋的关系,到底是应该先有鸡还是先有蛋呢?最终大家希望达到的是鸡生蛋、蛋生鸡,循环往复、无穷去尽的境界,但是在既没有鸡也没有蛋的情况下,应该如何处理这个问题呢,最初的内容是怎么来的呢?

这就是如何冷启动的问题,既没有用户,也没有内容的应用,要做起来就需要冷启动。国外的做法是,慢慢积累。但是国内的创业者实在是太多了,任何一个领域都扎堆聚集了大量的同类产品,肯定是没办法慢慢积累的。主持人和嘉宾们给出了不同的解答。

其中有两位嘉宾的项目就是做机器学习和智能推荐,他们绕过了这个问题。其中一位嘉宾的建议是,初期的内容完全靠运营,做活动,做运营。当我问他们,现在机器推荐能够代替人吗?他们都明确的表示不行,现在的机器推荐无法代替传统的编辑推荐。能够做到的只是帮助编辑提高推荐的效率,并在编辑推荐之外提供一定的补充。

  • 冷启动的中国特色的方式,就是爬虫加编辑

主持人的解答是非常中国特色的。依靠爬虫,从别人的网站上或系统上,将自己所需要的内容聚集过来。然后依靠人工编辑,对这些内容进行审核、过滤和聚集,然后推荐给用户。这基本上就是国内绝大部分轻型应用起步的方式。我记得主持人说这个话的时候,满脸都是那种“你懂的”的猥琐表情。好吧,既然大家都是怎么起步的,那么也就只能这样了。

关于轻型应用和重型应用,这是以前一次NTalks活动上听到一位投资人说的概念,所谓轻型应用就是那种完全靠功能和内容来吸引用户,不提供线下服务的应用。而重型应用则正好相反,主要是提供线下服务对接。那些阅读类应用、游戏、小工具就属于轻型应用;那些团购、预定类、O2O类的应用就是重型应用。轻型应用要想做好,关键在于用户体验;而重型应用要想做好,关键则在执行力上。

  • 最初的投资来自三个F 

嘉宾给出的解答比较国际化一些。他首先给大家讲了个故事,如果一个人第一次创业,那么他应该向什么人去要他的第一笔投资呢?答案是三个F,Family 家庭,Friends 朋友,和 Fool 傻瓜。这说明一个问题,就是第一笔投资的风险是非常巨大的。但是这里面又说明了另外一个问题,那就是在开始创业的时候,家人和朋友是非常重要的,其中家人毕竟有限,那么能够帮助一个项目进行早期积累的做好选择,就是朋友。这些朋友既是第一批用户,也是第一批内容的生产者。

当天最后那个卖开发工具的家伙,就很好的证明了这一点,在创业的过程中,最重要的就是朋友。

  • 初始阶段,大众创造的内容是不适合分享给大众的

项目的早期,用户所创造出来的内容,肯定是质量差、数量少、传播性弱。这个阶段如果不使用专业编辑来提高质量,不使用爬虫来提高数量,日子确实是很难熬的。现在的产品并不仅仅是那个软件,包括里面的那些内容和数据,都是产品的一部分。用户需要的是一个完整的服务,而不是分离的软件和数据。

  • 如果一种模式三个人玩儿不起来,那么就肯定有问题。

一个嘉宾说,一种模式如果要验证它是否可行,那么最简单的方式,就是将人群缩到最小,最小的人群是三个人,三人成众吗。如果一个模式,在三个人中都玩儿不起来的话,那么这种模式肯定是有问题的,需要进行调整。

  • 大型基础服务不适合中小型的创业者

指智的嘉宾,在一个问答中说道,创业者千万不要自己去做社交平台,也不要自己去搞那种基础服务。比如图片、视频之类的基础服务。在这些领域,那些平台商,互联网巨头,很容易就可以将创业者绞杀掉。即使是那些有上千万用户的东西,也很容易被干掉。这就是一开始说的那个博弈的问题了。twitter是不存储图片的,也不存储视频,这么多年都没有改变过。所以才有Instagram的发展空间,才有viddy的发展空间。facebook的边界也是非常清晰的,很少出现挤占开发者空间的事情。国内的这些大的平台厂商,总是看着什么东西赚钱,就自己上。然后将上面的竞争开发者通通干掉。所以中小开发者最好去做一些比较细分的市场,不要自己去做社交平台,不要去做图片微博、视频微博之类社交性质很强的基础服务。很容易被那些拥有巨大用户数量的平台商干掉的。

  • 项目一开始不要想着如何赚钱盈利,先把用户和数据都做好

当有人问到商业模式和盈利模式问题的时候,几位嘉宾都说,一开始不要去考虑这个问题。很多成功的企业,最终所实现的盈利模式,和他们初创的时候所设想的一点关系都没有。所以在初始阶段,与其去研究盈利模式,还不如好好的将用户和数据做上去。

记得上次参加17Startup的时候,一位投资人说道,当前的移动互联网行业里面的现金流,超过百分之九十都是vc的钱。这肯定是不正常的,是非常不健康的状态。但是如果整个行业的人都在疯狂的做数字,做用户。那些自己想着要去赚钱的项目,就会非常痛苦,钱没赚到(被人都免费了),数据也没做起来,最终就是一无所有。

  • 无法确保转换率的情况下,不要花钱去做推广

有一位听众问,什么时候花钱去做推广最合适?几位嘉宾的观点比较一致,只有在确保60%以上转换率的情况下,才可以去做推广。比如,一块钱就可以让刷机商在水货手机上刷上一个应用,但是如果这些刷上去的用户量,最终转换成应用的真正用户的比例达不到一个比例,那么就不要去做付费推广。60%是其中两个嘉宾提出的数字,其他两个没有说,但是他们也基本认可这一点。在项目的早期不要去做付费推广,当积累了一定的用户和内容,特别是拥有了良好的口碑之后,再去找合适的渠道,进行推广。单个用户成本最高的推广方式是传统互联网广告,Market换量,效果最好的还是自己做运营活动。所以几位嘉宾一致表示自己从不做推广,只做运营,特别是围绕社交平台的运营。

  • 用户价值比用户量更重要

所谓的用户价值,就是软件到底能够为用户解决什么问题,能够在用户那里实现哪些价值。如果一个软件在这一块上比较模糊的话,那么就算用户量再大,也没有意义。现在可以靠烧钱的方式,在短期内将用户数推上去,但是那些用户价值不清晰的应用,其用户的流失率是非常高的。这也是上面那个什么时候才能花钱推广的问题的延续,在应用的初始阶段,需要摸索用户价值。很多产品经理所设想的用户价值其实是有偏差的,需要根据数据,根据社交媒体上面的用户反馈来调整产品,最终能够清晰的描绘并实现用户价值。对于一个应用来说,实现用户价值是最重要的问题。

记得在上次我做主持人的那一期17startup《旅游专题》上,一位投资人就说过,在他们看项目的时候,首先要确认的就是,这个项目到底为用户解决了什么问题。这个问题解决得是不是好?这是不是用户迫切需要解决的问题?有这种需要的用户到底有多少,他们的支付能力怎么样等等。

  • 互联网内容的三种授权方式

活动的最后一个问题,好像是这样的。引用互联网上的内容是否需要注意版权问题,特别是大众点评的内容是否可以引用。嘉宾的答案是:互联网上的内容,授权方式通常有三种,第一、可以随便用的;第二、注明出处之后,可以使用的;第三、不可以使用的。采用前两种授权方式的内容已经足够多了,足够用的,最好不要去碰第三种,也就是不允许转载的那些内容。而大众点评的内容,恰好是属于第三种情况,那是不授权给其他人使用的。如果引用他们的数据,是会被起诉的,国内已经有过相关的案例。

  • 一个初始阶段的项目应该如何处理版权的问题

在项目很小的时候,没有形成成熟的商业模式,用户数和影响力都很小的时候,不会有人来找这种公司的麻烦的。因为这种公司的数量太多,一个一个的追究下来,成本太高。所以,很小的公司,基本可以随便用任何内容,然后在有人找上门来的时候,再处理也不迟。这里面还涉及到避风港原则,如果内容是用户上传的,那么网站只负有在被告知之后进行删除的责任,并不需要承担其他责任。

 

通过这个活动,基本可以看到中国创业的现状。在初始阶段非常的不规则,使用爬虫,使用编辑充当种子用户,盗用其他人的内容,而且还没有明确的商业模式。等项目具有一定规模了,再逐步的正规化。

下一次的NTalks活动会在搜狐的会议室里面举行,我们会赞助bambook电子书。再下一期可能又会回到御膳房。御膳房下一期的活动应该是开源中国(5月26日下午)的活动。再往后是IT龙门阵的技术专场(5月29日晚上7点半~9点半),主题是云存储的基础架构分析,应该是百度网盘和有道笔记的自身专家为大家分享。现在还确定下来的活动,还有6月16日的图灵社区《推荐系统实践》新书发布交流会。

Close Bitnami banner
Bitnami