7 月 29
Luke Fan 杂谈 Python , 活动 , 社区
这是华蟒沙龙在盛大创新院子御膳房会议室举办的第二期活动了。经历了7月21日大雨的洗礼之后,7月22日的这一期活动到场的人也还是不少的。
本人对于Python不是很了解,中间有些事情,听得也不是很完整。只能就着印象比较深刻的一点来记录一些东西了。
会上有一个兄弟,用非常平缓的语调,介绍了他们的项目。以及他们希望招聘的职位。这位兄弟是做电影特效的,在这种程序员聚会的活动中,出现了一位身份如此玄幻的兄弟,确实让人眼前一亮。
现在的电影特效软件中,大部分都支持python作为后台的调度语言。电影特效,和电视特效有着本质的区别,电影的分辨率是非常高的,在电视编辑软件还在考虑1080p甚至于4k的分辨率时,电影通常一帧的容量就能达到GB级别。在这样精度的视频上做特效处理,其难度和运算密集度可想而知。具那位语调平缓的兄弟介绍,他们公司有50台服务器,去年制作了一部《百万巨鳄》,整整用掉了一年时间才计算完成。现在国家重点扶植的一些动漫产业基地,已经开始建设渲染农场,让那些需要进行渲染的团队,可以按需租用这些设施。在调用庞大运算资源来进行渲染的过程中,任务的调度是一件非常关键的事情,而这件事情就需要python程序员来贡献力量了。
python确实是一种很有趣的语言,可以去做很多工业控制、网络设备控制、渲染流程控制方面的工作。希望以后能够继续在华蟒沙龙的活动中听到python各种各样不同的应用场景和故事。
7 月 29
Luke Fan 梦想园 RoR , 活动 , 社区
2012年7月21日,对于北京人,和那些恰巧那一天在北京的人们来说,都是一个很不寻常的日子。一天一夜的大雨,让北京那脆弱的排水系统彻底崩溃,某些远郊区县发生了洪涝灾害,甚至有一个文化人被淹死在了自己的汽车里面。同时也还有人跳出来说预报到位、预警到位、预案到位。
Ruby on Rails的第一次线下活动就是在这一天举办的。时间是早就定好的,也没想着会有那么大的雨来为这次活动助威。
说是第一次其实并不准确,Ruby on Rails的线下活动,在上海还是做了不少次的,在北京总是搞得少了一些,以前也不是没有搞过,但是这中间停摆了很长一段时间,这是ruby on rails社区,北京地区活动回复正常化的第一次活动。如果能够坚持一个月一期做下去,那么这就是名副其实的第一期,如果这一期之后,又停摆很长时间,那么下一次依然是第一期。
虽然暴雨如注,但是来得人并不少:
这场活动有两个主题演讲,分别介绍了ruby on rails前端技术——sass、compass和bootstrap;以及ruby on rails的一套TDD开发框架。
bootstrap确实是一个好东西。这套框架可以让那些不是很了解前端开发技术的人,快速的套用各种前端设定,现在已经有很多网站在套用bootstrap了。就像以前delphi的vcl那样,这种标准化的前端界面套件,初一看上去会让人觉得眼前一亮,但是如果被太多网站所采用,那么也就难免出现同质化的问题,很多网站会长得差不多。一开始大家可能会觉得长得不一样的网站不够好看,但最终肯定会出现审美疲劳,那些与众不同的网站又会脱颖而出。这应该也符合分久必合、合久必分的发展过程吧。
现在还不需要去想那么多,至少目前对于我这种半路出家的web程序员来说bootstrap还是一个相当不错的选择。我想,这套东西可能会被不断的完善,很多人也会不断的为bootstrap添加各种新的风格和插件,甚至是皮肤之类的东西,在被新技术完全取代之前,bootstrap应该还会蓬勃的发展很长一段时间。
关于TDD,MDD之类的各种各样的开发驱动方式来说,在项目规模达到一定程度之前,其意义都不是那么大。不论是测试驱动还是模型驱动,都是以项目和团队已经庞大到很难通过面对面的沟通实现有效的管理的前提下产生的。学习一下是不错的,但是一个项目是不是要在一开始只有两三个人时候就上这种东西,值得商榷。
期待下一期的Ruby on Rails社区活动。
7 月 26
Luke Fan 杂谈 RoR
Ruby on Rails里面有很多东西的安装和配置是非常麻烦的。其中RMagick就是其中赫赫有名的一个难装的包。RMagick是一个图像处理的报,主要是用来做各种图像的处理。
RMagick分为两个部分,一部分是ImageMagick,这是一个远胜于言编译的二进制图像处理库,另外一个则是RMagick,通过原生语言调用那些ImageMagick,然后再为Rails应用服务。所以安装RMagick,不论是在什么系统上,都需要先安装ImageMagick,然后在确保编译器工作正常的情况下,安装RMagick。
在ubuntu下面应该是最容易安装的,ImageMagick可以直接去apt-get,linux系统中的编译器通常也不需要再进行特殊的设置。
Mac下面要稍微麻烦一些,首先要去搞个MacPort之类的东西,然后才能安装ImageMagick,编译器则需要去下载那个1G多的XCode。我这里刚刚升级了10.8,又要去重新下载XCode了。有了ImageMagick和XCode之后,就可以gem install rmagick了,自动安装最新的版本。
最麻烦的是windows,前几天给一个兄弟的windows机器安装Rails环境,被这个东西折磨得欲仙欲死。
下面是一篇我查到的最完整、最正确的教程了,来自Stackoverflow。
安装 DevKit,这个DevKit就是Ruby在windows下调用的编译器 : https://github.com/oneclick/rubyinstaller/wiki/Development-Kit 。以前这个编译器在某些地方,必须要翻墙才能下载,现在换到了github下面,可以直接下载,不需翻墙了。
安装 ImageMagick,要记得在安装的时候勾选,安装头文件。 http://www.imagemagick.org/script/binary-releases.php/#windows 需要注意的是:不要将ImageMagick安装到有空格的默认目录下,在 C:/Program Files/… 下面,是不行的。要安装到一个简单的目录下面。
注意移出所有以前版本的ImageMagick和RMagick
这是关键的一步,将ImageMagick的目录,设置到环境变量中
set DFImageMagick ImageMagick的安装目录 set PATH=%DFImageMagick%;%PATH% set CPATH=%DFImageMagick%\include;%CPATH% set LIBRARY_PATH=%DFImageMagick%\lib;%LIBRARY_PATH%
安装 RMagick : gem install rmagick 当前版本,正确的输出应该是这样的: Temporarily enhancing PATH to include DevKit… Building native extensions. This could take a while… After some time, Successfully installed rmagick 2.13.1
校验一下安装的结果:
A. convert -version 显示ImageMagick的版本 B. gem list –local
输出中应该包含 rmagick 2.13.1 进入irb 测试 require ‘rmagick’ 应该输出 ‘true’
我还看到了很多文章和帖子,介绍通过本地安装来安装RMagick,这种方式通常装上的版本都不高,很多项目做bundle install的时候,会有问题。
7 月 17
Luke Fan 梦想园 17Startup , 创投 , 活动 , 社区
17Startup是一个记录创业公司生存状态的数据库。里面收录了各种创业公司的起起伏伏。在记录的同时,17Startup还会定期的在北京、上海、深圳等城市举办线下活动,每次的线下活动都会选择一个主题,邀请这个主题相关的,相对有一些底蕴的创业公司来为大家分享创业过程中的一些故事,然后邀请投资人对创业项目进行点评。17Startup的寓意就是一起来创业,让创业不再孤独,这些线下活动就是创业者和投资人聚集在一起,分享创业故事,让创业者能够找到那些对他们有所帮助的人。
这是第一次在盛大创新院的御膳房会议室里面做17startup的活动,以前这个活动都是在车库咖啡举办,在咖啡厅举办活动,现场总会有很多闲杂人等,在创新院的会议室里面做活动,虽然来得人要更加集中一些,但是也缺少了那种这边说创业,那边做创业的气氛,各有利弊吧。
下图就是御膳房会议室,椅子的品种比较纷杂。
签到处:
美丽的女主持人一身红裙。@顾三小姐 在离开了盛大创新院之后,在一家投资公司中做投资经理。
活动开始之前,早来的投资人们在相互打着招呼。
活动开始,首先由本人欢迎大家来到盛大创新院,参与这场活动。
主持人在做开场介绍。
会场中座无虚席,当天到场人数超过150,应该是这个会场建成以来,参会人数最多的一次了吧。
会议正式开始,首先是数据分享。
艾德思奇的王迪志在介绍数据。艾德思奇是一家移动互联网的广告平台,他们为移动互联网应用提供广告服务。那些应用可以接入他们的广告,并通过用户对这些广告的点击得到收益。通过他们的数据可以看到,现在移动互联网的应用装机量还是在稳步上升的。移动互联网应用中,和生活有关的应用,主要是天气类、工具类和导航类,这三个大类在最近半年的装机量、广告展示和点击次数,都在成几何级数上升。这三块和生活息息相关的应用,天气和导航所占比例的总和,就是生活相关工具类应用所占有的比例。从数据上来看,生活服务类应用的增长是这三类和生活相关的应用中最迅猛的。
当天,会议还迎来了一位重量级的嘉宾,那就是来自赶集网的副总裁王振华,他简单的为大家分享了一些他们对于本地生活服务的看法。第一、生活服务的数据形式是相对统一的,基本都是一个图片,一个标题,一段介绍和大家使用这个服务之后的点评。但是,在这相对统一的数据平台上,可以实现的服务,是千差万别的,每一个细分领域,每一个地域都可以做出完全不同的服务。第二、生活服务主要是依靠自助式服务被用户所消费的,用户从零到一,可能需要宣传和推广,但是从一到一百、从一百到更多,还是要靠服务本身的沉淀了。第三、作为互联网企业,维持线下团队是一件非常痛苦且高成本的事情,所以他们现在正在大力的消减其线下团队。
17startup每次都有一个环节,就是由17startup的创始人文飞翔同学向大家分享他们搜集到的行业数据。通常数据都是一片大好,不是一片大好的形式,这个主题也不会跑到这里来做线下活动。会后吃饭的时候,文飞翔说考虑要做一期已经关闭和失败项目的活动,期待啊。
在数据分享之后,就是创业团队分享,每个团队只有5到10分钟的分享时间。
第一个上来的是悦乐优惠的联合创始人林应明,他的分享是我所听过的各种分享中比较有特点的一个。通常大家都会出来讲一讲自己的产品有多么多么好,做了哪些成功的案例等等,林应明却反其道而行之,讲了几个他们自己失败的案例。他们做优惠券,先跑去找那种全国性的快餐连锁企业,除了永和,以及刚刚进入中国市场正在打天下的汉堡王,其他企业包括麦当劳和肯德基根本就不愿意和这种团队合作。在没有得到大型连锁餐饮企业授权的情况下,他们就没有将麦当劳的优惠券放入到他们的系统中去,结果被其他竞争对手所领先。在这之后,他们才发现那些大型连锁餐饮企业对优惠券的管理模式并不排斥第三方应用对其优惠信息的传播。他们也印过DM单,商家很喜欢,效果也很好,但是从线下到线上的转换效果非常差。线下推广的成本非常高,尝试之后也放弃了。还做过员工优惠,效果还不错,但是传播性很差。当有人问到他,有什么成功的经验时,他说现在正在做的东西,还没有成功,所以不能算是成功经验,也不方便和大家分享。
第二位上来分享的是阿姨800网的黄剑,他做了一个月嫂服务网站。这个网站并不直接面对月嫂,而是面对那些月嫂中介,将月嫂中介的信息放到网上,帮助月嫂中介进行推广和宣传。当投资人问他是否有计划自己跨过中介,直接为用户提供月嫂服务的时候,他表示,以后可以考虑,但这其中涉及到很多责任,比如月嫂如果为雇主带来了什么经济损失,或给婴儿带来了什么伤害,或者是发生了什么工伤事故之类的事情,责任判定和后续事物处理非常繁琐,他们目前还没有这个能力。
第三位上来的是懒得淘的创始人庞一,这是一位从清华毕业的美女,这个样子至少在清华是可以算作美女了吧。她希望做一个通过亲友之间的social关系来帮助大家选择礼物的网站。她说:现在一个人在淘宝上选择一件商品的时候,需要点击和浏览大量的网页,这是一件非常痛苦的事情,使用了她的网站,她可以将买到一件礼物所需点击的网页数目降低到最小。每个人都可以在这个网站上为别人提供礼品采购咨询服务。国外有一家类似的创业企业,现场的KPCB基金在海外就是懒得淘的那个原型企业的投资商,在KBCB的张灵对这个项目进行点评的时候说:她认为这就是一个购物推荐系统,和美丽说之类的应用有些类似,但是对于礼品市场来说,国内外的差别是巨大的,国外的零售商、卖场和网络卖场里面都有专门的礼品卡,礼品市场是非常成熟的,而国内在这一块的整体成熟度还差得比较远。
第四个上来的是一个做订餐的,美餐网的创始人赵晓。使用苹果电脑的人,PPT确实做得比别人要好很多。美餐网,作为一个订餐网站,并不提供送餐物流,只是管订餐。美餐网目前主要为国内最大的几个城市服务,很多不在他们服务区域内的用户下载了他们的应用,导致订餐失败。做这种O2O的服务,如果不能选择一个信息化很好的行业,就需要为线下的一方,提供信息化帮助,美餐网为餐厅开发了订单打印机和餐厅客户端,如果餐厅已经有了网络,他们可以将饭店接收订餐的成本降低几十倍。美餐网还提供了支付业务,用户可以直接在线支付。现在的订餐系统,另外一种形式就是像到家美食那样,自己提供物流服务,那是一种比较重的方式。很多没有送餐服务的大型饭店更喜欢到家美食的形式。
第五位上来分享的是帷幄便利的联合创始人孙会业,他们是做小区便利店购物的。用户使用他们的服务,可以就近在小区的便利店中选购商品,然后便利店负责送货。帷幄便利目前主要是靠收取小区便利店的推广和广告费用,以及帮助小区便利店提供集中的供货服务来取得收入。现在只能提供北京望京地区的服务,其他地区还在逐步发展之中。他们想做的事情实在是太多了。
第六位分享嘉宾是豆角网的市场总监尚惠鑫,她为大家分享了一些豆角优惠的市场营销案例。
最后一位分享嘉宾,是来自外卖库的联合创始人孟超,外卖库虽然号称是做外卖订餐服务的,但其实是一种汇集外卖订餐信息的媒体。他们团队的三个创始人都是清华毕业的,在做其他项目的时候,感觉订餐的体验非常不好,于是就决定自己做一个。很多创业者想要做的事情,都是自己在日常生活中没有得到满足的那个方向。
在嘉宾分享之后,就是投资人的点评。主持人要求他们说出三个选择本地生活服务类项目时的标准。他们做出的点评各具特色,但给出的标准却基本是相同的。我参加过不少的创投类活动,投资人给出的选择标准基本都是相同的。基本分为三点:1、是否为用户解决了实际的问题;2、团队的质量;3、业务是不是有门槛,是否能够抵御抄袭。
第一位点评的投资人:IDG资本 陈晓
第二位点评投资人:经纬中国 肖敏
第三位点评投资人:KPCB凯鹏华盈 张灵,她强调了,KPCB在选择团队的时候,会考虑到这个项目是不是能够做大,是不是有机会变成一项大买卖。
最后一位点评投资人:求索创投 陈中,这是一个以整个东南亚作为活动范围的投资机构。他说,东南亚地区,互联网和移动互联网用户的数量,一点儿都不比中国少。
上面是简单的介绍,以下是本人本次活动中本地生活服务的一些看法。
O2O中的O和O之间
现在的O2O非常火,本地生活服务就是O2O的一种具体表现形式。所谓的O2O,就是将线下的东西,发展到线上来。通过互联网和移动互联网的信息传播方式,将原来线下的那些传统产业推广出去。有了互联网的推广和宣传手段,原来的传统线下产业,就可以得到更多、更廉价、更精准的宣传推广机会,更多的人可以通过互联网和移动互联网找到他们所需要的东西。
这里,online to offline就是O2O的两个O了,这其中,online的人,通常并不了解offline的产业结构,不了解offline的商业模式。offline的人反过来也不了解online的商业模式。今天做O2O的大多是一些online的人,那些offline的人好像都坐在那里等着online的人来拯救他们。而online的那些人,特别是那些愿意付出智慧和努力的人,正在逐步的了解offline的情况,比如帷幄便利的人就坐到便利店里面一周的时间,去了解便利店的运营模式,以及便利店主的各种需求和想法。有些offline的人也在尝试去了解online,比如上海第一百货,就试图去做电商,还有一些其他的百货和超市尝试去做电商,不过他们大多都失败了。从失败率的角度上说,不论是哪一个O出发去做O2O,应该都是差不多的。那么,为什么现在主要是online在付出努力呢?这是因为,愿意投入去做O2O的online团队,不论大小,都能够找到自己的切入点,那些大型的互联网企业去做电商,那些小型的团队,甚至是创业团队则去做一些本地生活服务,各种细分市场无穷无尽,大家可以很充分的去试错。试错的成本也不是很高,现在还有大量的天使和VC愿意投钱去试错,对于创业者来说,甚至可以将试错作为一种职业。而offline中那些中小型的,根本就不了解互联网,他们也没有能力去做这种尝试。那些大型的offline企业,他们的很难找到那种小型的项目进行尝试,试错的成本非常高昂。而且,那些传统线下企业,大多都拥有相当完善的规章制度,而这些规章制度并不适应互联网企业,所以在大型offline内部建立O2O业务的成功几率是很低,同时失败的成本却要远远大于从online的一头来实现O2O。
O2O的两个O之间都有些什么呢?
1、需要对两个O都了解的团队。
如果只了解其中的一个O,那么是做不好O2O的。当天现场的很多团队和投资人都认为应该消减,甚至裁撤团队中的线下人员和线下力量。互联网公司里面的线下人员和线下推广力量是一个典型的以online方式管理offline业务的案例,上面说了,以offline的成型规章制度管理online团队是绝对的悲剧,其实反过来亦然。那些线下企业,如果使用online方式来管理,那么恐怕早就cover不住成本了。online的人,认为下线团队的成本过高,收益不够,无法支撑。其实线下的那些传统行业又何尝不是这么看待互联网团队的呢?online团队不喜欢线下团队的主要原因在于,使用互联网方式管理线下团队成本太高,工作效率太差。那些不喜欢线下队伍的团队,其实还是对offline的部分,了解还不够深入和透彻。
阿姨800网,作为月嫂中介的网络延伸,他们提供的居然也是一张照片、一个格式化的月嫂信息描述和一个标签化的月嫂技能标识、一个价格。其实月嫂的工作是很周期性的,都是按照整月来聘用的,而且不是从月初到月末,是根据准妈妈们的预产期来确定时间。所以月嫂信息里面有一个很重要的内容,应该是月嫂当前的状态,那些闲在那里没有人用的月嫂,我是不会用的。当初我儿子出生,去聘月嫂的时候,就是只找那些正在别人家里服务的月嫂,然后计算她们合约到期的时间,再在时间相对合适的几个月嫂中根据其他各项条件进行筛选,选定月嫂之后,还要亲自带着月嫂去体检。而且,月嫂通常是已婚已育的,那些未婚或已婚但没有孩子的月嫂也是大家不喜欢的。这些信息,在ayi800的网站上都是没有的。至少我是不会考虑在这样的地方找月嫂的。
2、需要配送和物流服务。
offline原来没有互联网这种全球化的推广渠道,他们也不需要将他们的产品和服务推送到全世界去。但是,现在情况发生了变化,全世界的人都通过互联网了解到了线下的那些服务和商品,那么问题就来了。谁来负责将商品和服务配送到最终客户手中呢?大多数online团队是没有能力自己去搞定这种事情的,而offline的企业,最多也就是有能力进行就近的配送。本地生活服务就是这样产生的,利用offline企业的就近配送能力,为附近的居民提供服务。配送对于online团队来说确实是非常麻烦的一件事情,大家都不愿意自己去搞定,但是只有解决了这种问题的团队,才有机会发扬光大。
现在的O2O主要是从online一端发起的,极个别的是从offline一端发起的,比如苏宁易购。其实还有一条路,就是从中间发起,从物流企业发起O2O,这应该是一个非常有趣的事情。
3、相关的责任和法规不够健全。
online团队之所以无法深入到offline领域之中有一个重要的原因就是法律法规不健全,送餐服务,如果用户吃了拉肚子怎么办。月嫂服务,如果月嫂卷款跑了怎么办。优惠券服务,如果所提供的优惠卷无法消费和使用怎么办。在这方面online企业通常处于法律方面的弱势。那些灰色地带,那些不守信的行为,对于online企业来说都是有巨大损害的。那些能够迈过这个坎,能够熟练使用offline企业的那些手段来保护自己的online团队,应该也是有很大机会的。
4、要寻找适合中国特色的服务。
并不是所有的服务模式都适合中国市场的,比如那个社交礼品推荐的服务,最终就变成了淘宝导购。能够真正的了解用户需求,解决用户问题的项目才是好项目。一味的抄袭国外的东西,是行不通的。比如国外有那种任务系统,发布了任务之后,有人顺手完成了任务就可以得到一些收益。这种东西在国内也是很难推广的,很多人的收入很低,不需要陌生人帮忙,这些穷人就可以把报酬都赚走,同时,这些人的诚信也是完全无法保证的,他们还会快速的形成行会,排斥那些外来人员抢生意。
总结
O2O不应该是online to offline,不应该是利用互联网技术去推广线下商品和服务。而应该是offline to online,通过对传统行业的信息化改造,最终产生出一批全新的online企业,和online模式,这些企业没有店面,完全依靠online方式进行运营,并最终消灭那些传统的offline产业模式。百货商店的没落,电脑城的相继关张就是这种趋势的前奏。
那些愿意承担更多服务和风险的O2O,会比其他那些避重就轻的团队更有前景。不愿意承担配送,不愿意承担任何责任,无法为消费者提供更安全、更优质、更有保障的服务和产品,最终这样的服务都会沦为媒体和信息渠道。他们只是提供了一些垂直的信息,在整个服务实施的过程中完全无法掌控任何东西。那些本地生活服务,每次就近让offline企业的配送人员和用户进行面对面接触的时候,这些配送人员都会拿出DM单,并告知用户,直接打电话比使用什么O2O更划算。
只有那些愿意承担,并且能够承担更多服务和责任的团队才有机会成功,并最终淘汰offline企业。
7 月 03
Luke Fan 梦想园 活动 , 社区
6月26日,在盛大创新院北京办公室的御膳房会议室,举办了IT龙门阵的第165期活动——自然语言处理,这期活动的两位嘉宾来自同一座写字楼。分别为来自18楼盛大创新院搜索分院的贾文杰和来自19楼搜狗搜索的张帆。
为了在活动现场能够让两位演讲者有更多的默契,活动主办方特意安排了两位演讲嘉宾提前一天坐在一起吃了顿午饭。相互了解一下对方的话题。不管技术发展到什么程度,处理自然语言的最好方法,还是人与人面对面的交流和沟通,按照中国人的传统来看,要是人与人之间再摆上一些美味的食物,那么交流沟通的效果会更好一些,再有一些酒的话,能够更好,但是考虑到下午要上班,酒就免了。
盛大创新院搜索分院的贾文杰:
搜狗搜索的张帆:
嘉宾合影:从左到右依此为,本人、贾文杰、张帆、曾贤儒。
自然语言处理,是计算机智能的开始
现在越来越多的公司已经将目光盯在了智能化上。随着Siri的成功,智能化应用已经逐步的走出实验室,走向大众。
要想让一个应用,或者说要想让计算机具备一定的智能,那么第一件要做的事情就是让计算机理解人的语言,不论是文字、语音,还是形体动作,亦或是表情。自然模式交互,也就是说摆脱了语言文字的交互,对于现在的计算机来说要更加困难一些,IT龙门阵技术专场的第一场活动《多媒体模式识别》 探讨的就是这方面的内容。
相对于需要通过多媒体模式识别来实现的自然模式交互来说,直接让计算机进行语言文字的识别和处理应该是更加成熟的技术。
记得刚刚踏入大学校门的时候,老师告诉我们什么是程序语言的时候,他是这么说的:所谓程序语言是针对自然语言而言的,自然语言中充满了二义性,而一段程序语言则拥有唯一的意义。
现在需要让运行程序语言,只能识别0和1的计算机来理解充满了二义性的自然语言,也就是这场会议的主题——自然语言处理。
随着智能系统越来越多的涌现,不论是智能推荐、智能搜索,还是像Siri那种号称是人工智能的产品,都需要实现自然语言处理的功能。自然语言处理是所有智能系统的根本。
中文是一种很难以处理的语言
中文和那些西方语言有一个很本质的区别,那就是我们的文字之中是不写空格的。早先的中文里面连标点符号都没有。古文中就将学生学习读书写字的初始阶段描述为“句逗之不知”,也就是说中国的学生学习读书写字的时候,需要首先学会断句。
感谢现代中文的先行者们,他们为中文引入了标点符号。使得现在我们学习中文的时候不需要再去学些断句了,标点符号可以为我们完成这个步骤。但是他们没有引入西方字母文字中的空格,这就导致了中文成为了一种相对于西方文字更难以被计算机处理的语言。
中文处理是从分词开始的,也就是说首先要做的就是将一句话中的词分拆开来,然后才能使用计算机来进行处理,不同的分词结果,代表着不同的意思。受中国文化很深影响的日文和韩文也有这种问题,也需要进行分词。空格和标点符号都不是韩国人发明的,谢天谢地。
嘉宾介绍了中文分词的发展历程,被普遍采用的四种算法,以及目前最主流的语言模型分词算法。其中的一些例子听得大家热泪盈眶。比如:长春市长春药店,按照不同的分词算法可以被分为:长春市/长春药店 和 长春市长/春药店 。
训练计算机理解人类的自然语言,这个过程和我们教小孩子学习说话有些像。需要将标准的语料库进行人工标注,然后让计算机来学习。这个过程异常漫长和痛苦,现在国内比较流行的人民日报1998年版的语料库。这个库是直到2003年才得以标注完成的。
现在大多数的中文分词系统中都引入人民日报的语料库,这里面有两个问题,第一、人民日报的用语是相当官方的,和人民群众的日常用语有着很大的差别;第二、1998年已经是很久很久以前了,一种被很多人在日常生活中使用的语言的变化是非常快的。要想再做一次这种标注,其成本很高,而且即使标注出来了,也已经过时,毕竟1998年的人民日报是标注到了2003年才完成,这个过程持续了5年的时间。现在的普遍处理方式是,在1998年人民日报语料库的基础上,加入新的平衡语料进行反复的迭代训练,在此基础上加入一些人工干预,然后再进行迭代训练。这里所说的平衡语料库中的平衡,指的是语料库中平衡的包含各种语料,而不是某一方面的语料所占比例特别高。
云计算为中文语言处理带来了什么
所谓云计算就是虚拟化,将原来每一家公司都需要自己做的事情,虚拟化到云端,变成一项服务,然后供大家使用。
以前哪家公司想做分词,想做自然语言处理,就必须自己搞定。现在是云计算时代了,盛大和天津海量信息都提供了云分词服务,任何公司希望能够在他们自己的系统中加入分词功能,或利用分词对自然语言进行处理,不再需要再自己进行开发,直接调用这些服务就可以了。
盛大的云分词应该能够在月内开始公测吧,据说能够达到每秒几百万字的处理速度。
自然语言处理的初期应用——意愿判定
搜狗是从输入法起家的,现在也在做搜索引擎,对于自然语言处理肯定有着和其他搜索引擎企业完全不同的理解。
现在的搜狗正在准备实现自然语言处理的最初级的应用模式,那就是通过用户输入的搜索内容,实现用户意图的判定。
如果用户输入苹果,他们会从用户输入的其他内容或曾经输入、浏览过的其他内容中来判定,用户所需要查找的到底是水果还是水货。
如果用户输入IPhone5,他们也会根据IPhone5是否已经发布了的时间状态来判定,用户到底是希望查找IPhone5相关的新闻,还是IPhone5相关的水货。
对于搜索引擎来说,不但可以得到用户当前搜索的信息,还可以得到用户进行搜索的时间和地点,得到用户的历史搜索记录,得到用户的社交关系,以及用户社交群体搜索的一些数据。当所有的数据聚集在一起,再加上从互联网上爬取来的各种数据,在对所有这些数据进行了自然语言处理之后,搜索引擎就可以做出更加智能的判定。
综合搜索和垂直搜索相结合
判定了意图之后,就可以根据这个意图提供相应的搜索结果。
目前的主流搜索引擎给出的结果都是一个一个的条目,网站条目。这种方式适合于大多数综合搜索结果的列举。同时,现在也出现了不少垂直搜索站,这些站点针对某一类特定信息进行搜索,然后按照符合这一类特定信息的方式,显示搜索结果。比如,有人在普通搜索引擎上搜索机票的信息,得到的会是买机票的网站的条目列表;但是在专门搜索机票信息的垂直搜索站上,就会直接得到机票的班次信息和报价。
对于用户来说,现在这种状况带来两个问题,第一、普通搜索引擎所给出的结果不够好;第二、垂直搜索引擎的数量庞杂,工作生活中各种需要搜索的信息都需要到不同的站点上去搜索,记忆那么多的垂直搜索站点,也是一件非常麻烦的事情。
那么在有了通过自然语言处理技术实现的用户搜索意图判定之后,一个搜索引擎就可以根据用户不同的意图,向其提供不同类型的垂直搜索结果。这也就实现了搜索引擎的智能化。
现在采用这种方式的应用有一些了,比如苹果的Siri,搜狗的搜索引擎,Google Now,百度的框计算。
总结
自然语言处理是智能算法的根本,而智能算法将是互联网和移动互联网应用的关键。任何类型应用,如果想要成功,那么就要实现更少的人为更多的人服务。如果想要实现更少的运营人员为更多的用户服务,那么唯一的办法就是让计算机具备更多的智能。
web1.0、web2.0以及现在在web2.0之后的时代,从发展的过程上来看,就是从少数运营人员为客户服务的web1.0,发展到少数运营人员和一部分客户一起为更多的客户服务的web2.0,再发展到现在,少数运营人员和更多的客户、智能算法一起,为更多更多的客户服务。而且,随着云计算虚拟化技术的普及,不是每一个开发者都需要自己去实现智能算法的部分,完全可以使用云端的服务来实现智能功能,每一个应用都可以使用智能算法来进行信息的处理。
7 月 01
Luke Fan 梦想园 LBS , 活动 , 社区
6月19日的这一场活动的准备阶段发生了一些非常戏剧性的故事,甚至有些惊心动魄。
地图是LBS(Local Based Services)的基础服务,所有LBS服务都需要基于一种地图的底层服务,所以一直希望能够做一场地图的活动。
在进行了精心的准备之后,却突然被告知原来准备的活动,由于某些原因无法如期举行。突然出现这种情况,只能向朋友们请求援助,找到CSDN的刘江老师。给他打电话的时候,他正在美国,听取了相关情况之后,他觉得地图这个主题还是非常有趣的,于是就安排了csdn的几位同事帮忙。给刘江老师打电话的时候,已经是周五的晚上,而活动是在周二晚上举行的,感谢CSDN的同事们,连夜加班工作,利用休息时间进行会议的准备工作。感谢CSDN为这个活动所作出的努力,在这些努力下,这样一场有趣的、有意义的活动最终能够成功的进行。
高德地图和百度地图
这次请到的嘉宾来自高德地图和百度地图。来自高德的王洋是高德地图研发部的经理,百度的严峻则是来自百度地图前端组。
来自高德的王洋:
来自百度的严峻:
这是我参加的历次活动中嘉宾的角色相对反差较大的一次。一个是研发主管,而另外一个则是真正实际编码的一线人员。他们从不同的层次,为参会者介绍了地图的故事,也讲述了各自公司对于这个领域的理解,以及他们曾经、正在和将要在这个领域中的投入,他们也分别描述了各自公司对于在地图领域进行投入所期望得到的回报。
新老交替——互相进入对方的领域
高德作为老牌在的地图厂商,是中国拥有测绘牌照的少数几家地图数据提供商之一,王洋也说了,他们的原始业务是地图测绘和地图数据的提供。而现在,高德准备进入互联网和移动互联网这个新领域,为广大的互联网和移动互联网企业或小团队、开发者提供底层的地图服务。希望能够以地图和地理位置作为核心的底层服务,来支撑更多不同的产品和服务,以便更好的为他们现有的用户服务,并开拓出更多的、更广阔的市场和用户。
高德正在进入以腾讯、百度为代表的互联网行业,并希望能够依靠其可靠精确的数据,以及强大专业的服务团队,借着LBS这一波大潮,挤进互联网和移动互联网领域,并在其中占据一席之地。
就像上面说的,百度作为国内最大的搜索引擎,算得上是老牌子的互联网企业了。虽然很少使用百度的服务,但是不得不承认,百度在国内的互联网领域算得上是一个泰山北斗级别的公司了。近一段时间来,百度开始大力的推广他们的地图产品,现在已经推出了百度地图、百度地图手机版,其产品也具备了导航功能。
百度正在进入以高德、四维为代表的传统地图领域。并希望以地图为契机,在LBS这波以移动互联网为主要阵地的大潮中能够继续其在互联网领域中的霸主地位。
不同行业中的两家老牌子的传统领军公司投入大量的人力物力,相互进入对方的领域,这其中的主要原因肯定是大家都非常看好由地图和互联网、移动互联网相互组合形成的这个全新的LBS业务。但是这里面也有一个不得不提一下的公司起到了很特殊的作用。
看到上面的Logo大家就知道了,这个公司就是谷歌。谷歌地图是在国际上被最多人使用的地图产品,也曾经是国内互联网上被使用得最广泛的产品,最经常被开发者和创业者作为底层服务所使用的地图了。
而这样的一个产品和高德和百度都有着千丝万缕的联系。
谷歌地图在国内使用的是高德的数据,一家美国企业肯定很难拿到中国地图的测绘牌照,所以使用国内的数据也就成了必然的选择。百度由于是后来者,也没有拿到测绘牌照,只能使用四维的数据。
百度作为一家搜索引擎公司,在很多业务上都对在模仿全球搜索引擎的老大,那就是google,在google由于某些他们自己不可告人的邪恶目的被迫将大部分产品撤离中国大陆市场的时候,百度就趁机大力扩张,并抢占google留下来的空白。google地图现在还在为了地图牌照的事情在各个政府部门之间递交申请和等待批复、盖章,于是百度也就义不容辞的冲了进来试图填补这个空缺。
高德的基础是数据
高德是从做数据起家的,现在其基础业务依然是地图数据的测绘。google到现在为止在中国大陆地区使用的还是高德的数据,苹果的IOS6虽然抛弃了google的地图服务,但在中国大陆地区依然使用的是高德的数据和底层服务。
前几天参加的高德地图api大赛上,高德的老大讲话中有一段非常奇怪。他说,苹果需要一家公司来提供中国大陆地区的地图服务,需要一家公司来提供实时的地理位置信息服务,还需要这家公司能够按照苹果的用户需求和产品设计,提供一些全新的服务。当大家都期待着他骄傲的说出高德就是这家公司的时候,全场听众却发现,这位老大已经骄傲的结束了这段内容。既没有说苹果使用了高德的服务,也没有说高德就是这家公司。在TUP俱乐部的这期活动上,也有人在提问的时候提到了苹果选择了高德的数据和底层服务,王洋同样是那幅满脸骄傲自豪的神情,既不承认也不否认。估计是受到了一些保密条款之类东西的限制吧,他们被问到相关问题的时候都会是这样一个态度的。
高德具有几千人的测绘和地图修订团队,目前能够保证对国内所有县级以上城市和道路,以及绝大部分的乡镇地图数据进行每年四次的全面更新和维护。
在汶川地震的时候,高德第一个派人到现场去,对地震破坏之后的道路进行了测绘,并及时更新到了系统中去,以便让那些进入震区的导航系统及时得到最新的地图数据。
和各大城市的出租公司合作,在每一辆出租车上安装GPS系统,并从这套系统中自动得到路况信息;派人进入公园,进行公园内的信息点和道路的采集;派人进入mall和各类商业地产,对这些原来在地图上只是一个小方块的建筑内部信息进行采集,高德还在不断的完善着他们的数据,还在不断的发掘新手段采集更多的,对用户更有价值的数据。
数据是高德的根本,也是主要现金来源。以后这也将一直是高德的最核心业务。
对数据的深度挖掘带来新的盈利模式
高德在得到了向google和苹果这样的IT厂商和各大汽车厂商销售数据和基础导航服务的稳定现金流支撑之后,开始将触手逐渐的伸入互联网和移动互联网的领域。
在进入互联网和移动互联网领域之后,很多合作伙伴不再是单方面的从高德得到数据,而是反过来可以向高德提供一些POI(兴趣点)信息。高德正在通过语义分析的方式,对这些信息进行甄选和过滤,并希望能够通过对这些数据的挖掘,发现新的,对用户有价值的服务模式。
以前参加一次NTalks会议的时候,一位投资人说过,曾经亲自去询问过4sq公司的人,他们为什么要做check in?4sq的人回答,check in的唯一目的就是不断的校正POI信息点。参见另外一篇博文:《LBS应用中的签到到底有什么用 》
移动互联网应用由于可以随着用户走遍四方,所以这也是一个非常好的,通过众包方式采集地理信息的方法。
王洋指出,这种使用UGC(用户生成内容)方法生成的数据,是非常不精确的,他们发现经常有不同用户为同一POI做出的标注距离相差超过1.5公里以上。这一部分的内容,他们必须要靠人工的方式才能进行处理。手机在室内是无法使用GPS信号(误差十几米)进行定位的,在没有wifi基站(误差几十米)进行辅助定位的情况下,就只能使用移动基站来进行定位(误差一公里)。如果是两个服务商的手机使用移动基站进行定位,比如一个联通用户和一个电信的用户都使用手机基站进行定位,那么即使他们面对面最在一张饭桌的两边,也有可能连接到了两个公司相聚1.5公里以上的两个不同的基站上。于是他们为同一个POI所作出的标注就会相差很大。
地图就是浏览器,基于位置的信息就是内容
对于两家大厂商来说,他们进入地图领域的原因就在于,地图会成为输入法、浏览器、下载器、搜索引擎、播放器、手机、手机ROM、手机桌面之外的一个新的入口。很多很多的应用,很多很多的服务,都可以通过这个入口被推向用户。
所有有能力的厂商,都会去尝试占领这个入口,至少也要让其他公司占领相同入口的成本有所上升。现在,搜狗在做地图、百度在做地图、微软在做地图、腾讯在做地图、苹果也要在他们的IOS应用中加上自己的地图。在国内,那些有钱和有牌照的公司,都希望能够抢占这个全新的入口。
百度的地图API
就像金山在wps中采用了和微软office完全一模一样的API接口一样,百度的地图API,高德的地图API和一些其他国内公司提供的地图API,都和google的地图API接口基本保持一致,那些以前使用google地图服务的应用开发商,基本上不需要修改代码就可以直接进行移植。
目前百度和高德的API,至少是Javascript部分的API是免费的,而且限制极少。
免费地图模式
大家都处在打江山的阶段,所有的地图服务商现在都在拼,拼其他人先坚持不下去,先退出。活到最后的那一个或几个才是最终的胜利者。
百度是依靠其巨大的流量变现能力,利用其广告和竞价排名的收入来支撑这场战争。而高德则是做为上游数据提供商,依靠销售数据的利润来支撑其进入这个血腥的战场,并期望能够留存到最后,成为最终的胜利者,至少也是最终胜利者之一。
总结
活动结束,大家拍合影。从左到右,csdn的付江、我、高德的王洋、百度的严峻、盛大创新院的曾贤儒。
地图现在已经成为了一个新的入口,一个被很多大鳄盯着的入口。就像所有大公司都要做自己的输入法、浏览器、手机一样,每一家有能力,或自认为有能力涉足这个领域的公司,都会冲进来狠狠的在这块蛋糕上面咬一口,哪怕蛋糕完全是用黄莲做的。
虽然第一批的国内LBS应用大多都没有生存下来,即使是苟延残喘的那部分,也都没有明确的商业模式和稳定的现金收入,但是所有人都相信LBS应该是一个方向,总有一天这个市场会蓬勃的发展起来。就像微博那样,死掉一批之后,第二批里面就会有人浴火重生。
我还会继续参加各种各样有趣的活动。尽量为每一次参与的活动写一篇博客,但是手比较慢,所以通常会在一周之后才能把博客贴出来,继续坚持吧。
预告
后续在北京创新院的御膳房会议室还会举办Android ROM的PK,由盛大的乐众ROM、小米ROM和点心ROM同台PK。还计划搞一期NoSQL数据库的PK,主要分享Cassandra和MongoDB。时间确认下来会向大家发通知的。
6 月 28
Luke Fan 梦想园 活动 , 社区
盛大创新院北京办公室,继6月16日的《图灵读书会——推荐处理实践》的活动之后,6月17日,又迎来了一场新的活动,《华蟒沙龙——北京地区的Python活动》。
组织这次活动的是金山的@ZoomQuiet 组织的。我个人对Python完全不了解,所以我本来是抱着听天书的准备来参加这次活动。
我个人以前主要是搞Delphi,后来也搞过一段时间的Ruby on Rails,对于动态语言还是有一些了解的。记得以前在Borland的时候,对编程语言是这么分类的:
原生(Native)语言,就像Delphi、C++之类的,直接可以编译得到二进制机器码的语言。
管理(Management)语言,指的是那些编译之后需要在虚拟机上面运行的语言,比如java、C#。
动态(Dynamic)语言则是说的包括Python、ruby、javascript、coffeescript、php这些语言在内的,不需要进行编译,直接通过解释器解释执行的脚本语音。
Python在动态语言里面,算是应用范畴比较广泛的一种了,从web开发、移动开发,到服务器脚本、各种网络设备控制都可以使用Python来进行。
华蟒沙龙这个活动发展到今天,也不都是python的人过来分享,第一个分享者的项目就是使用coffeescript开发的,他做了一个全新世界的描述。
设想了有一个星系,这个星系中有两颗恒星在稳定的运行,在这样的一个星系中如果有一颗和地球很接近的行星,那么这颗行星上的气候、生物应该是一个什么样子呢?这位可敬的科幻迷,模仿了这颗行星的日出日落时间,生成了行星的板块和海洋地形,模仿了大气的流动。他希望在将来能够通过计算机的计算,仿真出这颗行星上面的植物,以及动物生态环境。他的项目是开源的,希望能够有很多对着干项目感兴趣的朋友参与到这个项目中来。
下一位演讲者,为大家分享了又一种web开发框架,python和php都存在大量的框架,就是做web的mvc框架也是非常多的。这一点上,我更喜欢ruby,web框架基本就是rails了。
uliweb应该是一种python的web开发框架,这位分享者上来讲了讲这种框架,以及他使用这种框架的体验和这种框架未来的发展方向。
在uliweb之后,是一位来自清华的博士,来为大家分享他们做的智能车,以及如何可以非常简单的设计一些硬件产品。
用他的话来说,淘宝可以解决各种各样的问题,可以从淘宝上购买到各种各样的元器件,甚至有些东西还可以要求淘宝卖家帮忙进行改装和调整。他们自己购买了一个底盘,现在已经可以让那辆车在无人驾驶的情况下,横向的移动,以实现贴库的动作。即使是有人的情况,我也没办法操纵我的汽车横向平移。这位博士还以电饭锅为例,介绍了如何改装家里面的电器,如何让程序控制这些等等。
当有人问,应该如何从零开始做一件自己的硬件产品时,博士拿出了一个tp-link的便携式无线路由器说:大家可以到淘宝上去买一个这样的路由器,并要求卖家帮忙刷好开源的操作系统,将里面一些用不到的接口用线缆引出来,然后就可以把这个路由器当作一个控制器来用,可以直接通过网络编程,控制那几个接口,实现开关功能,或者接上一个摄像头什么的。
在此之后,豆瓣的工程师分享了一下,他们在trac基础上开发出来的内部开发过程管理工具。这个工具是豆瓣内部使用的,至少目前还没有开放出来的计划。
大家看到照片上那个红色的、圆形的东西了吗?那是一个番茄计时器,每一个演讲者上台的时候,都会将他们计划的时间设定到计时器上,在计时器响起来的时候,讲演者就还剩最后5分钟的提问和交互时间了。
来自42qu的张教主分享thrift接口语言。现在很多的应用,都需要开放api来为第三方开发者服务,当前比较普遍的方法是使用http、restfull和json,但是这种方法在处理大量二进制数据的时候,效率很差。所以像everntoe这种需要处理二进制内容数据的服务,他们就会选择thrift这种接口语言。thrift这种中间语言,可以被转换成各种常用的编程语言。这样的话,用户不论使用哪种语言来编写他们的第三方应用,都可以转换成thrift的接口语音,然后就能够跨语言、跨框架、跨平台的进行高效的数据调用和交换了。
最后上来的是来自金山的两个兄弟,包括这场活动的组织者ZoomQuiet,那个T恤上写着人生苦短的就是。他们希望能够通过一对一的教学,现场学习lisp语言。但是这哥儿俩配合得不是很好,基本上就是在规定的时间内,演示了一下编辑器怎么使用,lisp相关的东西,基本没有看到。
这是华蟒沙龙停摆了一段时间之后,重新启动起来的一场活动,希望这些活动可以更多的办下去,盛大创新院的御膳房会议室欢迎大家。
6 月 23
Luke Fan 梦想园 活动 , 社区
6月16日,我们的御膳房会议室迎来了一个非常有特色的活动——图灵的读书会。图灵是挂靠在人民邮电出版社下面的一个出版机构,不是很大,每年出的书也不是很多,但是对于一个计算机、软件圈子的人来说,图灵的影响力还是很大的。这主要是是因为图灵所出的图书,品质一直都非常不错。
记得以前有一次和一个出版社的编辑聊天(另外一家以计算机图书闻名的出版社),他说纸质书就是给初学者看的,那些已经达到一定技术层次的人,是不会购买纸质书看的,他们如果有什么需要,通常能够在网络上找到所需内容。所以纸质书就是为初学者设定的。我和图灵的人聊天的时候,他们却告诉我,他们会出一些比较有深度的、比较新、层次比较高的书,哪怕这些书的销量很小,但是对于那些真正需要这些书的人来说,这些书才是真正有价值的。
很难说这两种观点哪个更正确一些,从我个人的角度来说,那些为初学者编写的书籍,可能能够有很好的经济效益。但是那些有层次、有深度,描述最新技术的图书,才是对社会,对整个行业有价值的东西。
图灵的编辑真的很热爱他们所出版的图书,热爱图书本身而不是为图书的销量而忧、而喜。每次见到他们,他们都会满怀激情的向我推荐他们的书,就像计划生育之后的父母们在向周围的人介绍他们唯一的宝贝。
图灵最近在做一些改变,从一个出版机构向社区的方向转型。既然他们已经拥有了一个相对细分的,很有深度的读者和作者、译者人群,那么去维护一个拥有极强购买力和社会影响力的社区,肯定要比做一个单纯的出版机构更加有价值。
图灵出了不少曲高和寡的图书,比如很多数学方面的书,还有不少算法方面的英文原版书。每次出来做活动,他们总是要带着这些宝贝出来向大家展示。
当天推的这本书是一本《推荐系统实践》,这个主题虽然是现在最热门的主题,但是真正能够看懂这本书的人应该并不多。所有人都知道智能推荐是当前互联网和移动互联网中最核心的技术,能够说出其中一些特性的人也不在少数,但是真正了解或者说愿意去了解推荐系统核心算法的人并不是很多。
既然是读书会,那么分享者肯定是和这本书有关的一些人,《推荐系统实践》这本书有两位技术指导,和一位作者。当天的读书会就是有这三位来为大家分享他们各自对于推荐系统的理解和心得。
曾经任职于谷歌,现任腾讯公司情境广告中心总监的王益,是这本书的一位技术指导。
王益主要讲了一些广告相关的东西,讲解了广告和推荐的差异。作为一个互联网广告圈子里面的老兵,他讲的东西还是很能够引起不少听众的共鸣的。
来自豆瓣的陈义是本书的另外一位技术指导。
陈义的语速非常缓慢,听他讲东西是一件非常痛苦的事情,总是觉得非常的困。
下图为本书作者,来自hulu的项亮。
和上面两位推荐和互联网广告圈子的老兵比较起来,项亮要稍微稚嫩一些,从中科院毕业时间不久的他,虽然现在就职于hulu,但是讲解的时候,纯数学的东西多了一些,和应用结合得有些生硬。他所能够拿出来列举的案例,大多是hulu的,还有个别amazon的案例,基本都是一带而过了。
所谓推荐系统
推荐系统,其实由来已久,不同的地方仅仅是,现在所说的推荐系统是有计算机系统根据用户的属性和内容的属性进行自动推荐,以前是人工推荐,用比较书面的语言来说叫做编辑推荐,而现在则是计算机自动推荐。自动推荐的好处在于能够在更大的范围内选择内容,向更大的人群做一对一的个性化推荐。这是以前的编辑推荐所无法实现的。
推荐系统需要向用户推荐一些用户所喜欢的东西,但这并不是全部。推荐系统还需要不时的向用户推荐一些新的东西,要保持一定的新奇性。推荐系统中比较典型的电台类应用,其创新性就在于用户可以不断的听到一些新歌,一些从风格判定,推荐系统认为用户应该喜欢的新歌。
在推荐用户喜欢的内容,和用户应该喜欢的新内容之外,推荐系统还需要告知用户,他是怎么工作的,是依据什么做出的推荐。推荐系统需要和用户之间建立起信任,并不断的加深和巩固这种信任。类似于竞价排名和在sns timeline中灌广告都是伤害这种信任的做法。
推荐和广告是两套不同但相近的算法
这两种算法,非常相近,都是希望能够能够将最佳的内容推向用户。但是,也有一些差异。推荐算法只需要考虑用户的满意度即可,也就是说推荐算法所追求的就是不断的提高用户的满意度。但广告算法要复杂一些,广告算法并不仅仅追求用户的满意度,通常用户最满意的广告算法就是没有广告,所以,广告算法所追求的是用户、广告主之间的一种平衡。
推荐的是内容,而广告应该和内容分离开。中国人总是觉得自己比别人更聪明一些。比如百度就将广告直接和内容混合在了一起,做了竞价排名系统。很多人都觉得这是一种不道德的方法,特别是这个行业的老大google号称自己不作恶,他们的搜索结果是完全由算法决定的,不受任何商业因素和人为因素的影响。google是将广告分离出来放在搜索页的旁边,并标注清楚,那是广告。
将内容和广告进行混合,最彻底的应该是SNS系统,但是也有很多SNS系统因为在内容中混入了太多的广告而之逐渐衰亡。国内SNS网站中这种例子很多的。
推荐和广告算法,是当前互联网和移动互联网的关键,核心竞争力
用户进入一个网站的目的是获取内容,所以作为为用户直接推荐内容的推荐系统,是当前各个内容网站的核心功能。
记得以前大家总是在说Web 1.0时代,是网站提供内容,用户自己上网去阅读这些内容。到了web 2.0时代,则是用户自己创造内容,用户自己决定订阅哪些内容,系统自动将用户订阅的内容推送给用户。而到了现在,由于用户创造内容的成本越来越低,用户所创造的内容成几何级数爆炸增长。再有用户自己去筛选自己所需要的内容,并进行订阅已经越来越困难,于是以机器学习为核心的智能推荐系统就成为了互联网和移动互联网服务最核心的功能。
用户的时间越来越紧张,甚至连碎片时间也逐步成为了各个应用和服务所争夺的阵地。如何在有限的时间内尽可能看到更多的用户自己觉得重要和有趣的信息,这就是目前互联网和移动互联网应用和服务所争相研究的领域。Path的成功,就是这种新需求下的新信息组织方式的一次成功,path仅仅是向用户推荐一些他们可能认识的其他用户,path是通过限制好友数量来实现对信息流的约束的。
智能广告推送系统
当直接销售马匹的收入无法让人们满足的时候,人们为马匹分级。当固定的广告位置和报价无法让企业和用户满意的时候,网站上智能广告系统。
最早的互联网广告从传统的平媒广告中继承了很多规则。网站将广告位根据位置和面积进行了详细的划分,然后按照不同的价格销售给不同的广告主。当广告位越来越紧张,用户为了得到更好的体验,希望能够尽量减少广告位置,而广告主虽然需要在有限的广告位上展示他们的广告,但是他们又不愿意为了这些有限的资源支付更多的费用,于是互联网和移动互联网广告又从电视和广播广告行业中学来了新的规则,将同一个广告位,按照不同的时间段分割开来,卖给不同的广告主。
随着广告内容的增长,由网站编辑来处理广告已经越来越困难了。虽然电视台和广播电台都有自动广告播放系统,但是这种系统还是无法适应互联网广告的播放。自动广告播放系统,在同一个时间、同一个频道上播放同一个广告。这对于能够直接计算转换率的互联网广告系统来说显然还不够好。
为了降低单个广告的播出成本,增加单位时间内,单个广告位播放广告的数量,以及这些广告的点击数和转化率。互联网广告服务商在抛弃了按照固定位置销售广告,按照固定时间段和固定位置销售广告位之后,选择了自动推荐广告的方式。也就是根据用户所浏览的内容,自动在广告库中挑选一条用户可能喜欢的广告来播放,在同一个时间段,在同一个广告位置上,不同的用户看到的将是完全不同的广告。
有限的广告播放位置,被从空间和时间上彻底的拓展了。现代的广告推荐系统就是在最大限度上利用广告展示机会,并将转化率提升到最高的一种方法。通过综合的考量,可以确保广告主的广告,特别是那些容易被用户点击的广告,在用户阅读内容的时候,推送到用户面前。然后,根据可靠的记录和统计结果,向广告主收取相应的费用。一个广告被展示了多少次,被点击了多少次,甚至是产生了多少次购买。
互联网和移动互联网广告拥有一个任何传统广告方式都无法匹敌的优势,那就是可以直接转换为购买。任何传统广告,都无法准确的统计到底有多少用户是通过广告走进商店购买商品或服务的。传统广告的效果通常是按照复杂的数学方法评估出来的,而互联网广告却可以直接结算转化率。所以,互联网广告算法就变成了赤裸裸的对转化率的追求。
大部分的互联网广告算法,最早都是来自于google,google应该是目前互联网广告算法的开山鼻祖,也是最前沿的广告技术得以被研发和应用的地方。google在国内的专利,大部分都是和广告相关的。曾经听过一位以前在google工作过的同事说起过google的专利政策,他们觉得那些和搜索相关的核心算法没有必要去申请专利,一旦他们申请了专利,别人就会来抄袭他们的算法。而后台的核心算法,即使被抄袭了,也很难证明。bing就曾经抄袭google的排序算法,google唯一能做的也就是将完全一模一样的搜索结果展示给广大网民,博得一笑。但是google在广告业务方面的专利投入还是非常可观的,他们申请了大量的广告展示、推荐和计数相关的专利。而且将这些广告专利在国内都做了PCT(专利合作条约 PATENT COOPERATION TREATY),也就是说这些专利在国内都是有效的。不过好像没听说过google在专利上起诉过谁,还是那位原来在google工作的同事,他说google的专利政策是避免别人来告google,google很少主动去告别人的。
这个行业里面有google这样一个老大,要比苹果和oracle那种公司成为老大肯定好很多。
高深的数学,让人难以一下听懂
不论是推荐算法还是广告算法,其核心都是高深的数学理论知识。这场活动是我所参加的各种活动中,内容最艰深的一次了。核心的部分,基本听不懂。像我这种层次的人去参加这种活动,也就是能够在案例和叙述的部分,还能听明白一些东西,但是那些数学公式除了让我感觉这个行业异常艰深之外,就不是我这种假行家能够搞明白的了。
推荐系统不论使用什么算法,其关键在于多维数据的整理和分析。所谓的多维,通常至少是数百个维度,据说google已经可以在以亿计的维度中对数据进行分析和比对、排序了。
关于冷启动
对于广告和推荐算法来说,都不得不面对冷启动的问题。推荐算法将冷启动进行了更详细的划分,分为新用户进入系统时的冷启动、新内容进入系统时的冷启动,以及系统中用户和物品都是新的时候的冷启动。
当一个新用户进入系统的时候,系统不了解这个用户,不知道应该向这个用户推荐什么内容或广告。
通常推荐系统的核心算法按照侧重不同,分为以用户为核心的推荐算法和以内容为核心的推荐算法。那些以用户为核心的,就是根据用户的行为特性和用户与用户之间的关系来进行推荐的系统。这种算法有一个通俗的名字叫做协同过滤,通俗的讲,系统分析一个用户的行为习惯,然后找到和他行为习惯相近的用户,将那些和这个用户行为习惯相近的用户们喜欢的东西推荐给这个用户。豆瓣电台应该就是比较典型的协同过滤算法的实例。
这种以用户为核心的推荐算法的问题就是,当新用户进入系统的时候,很难做出准确的推荐。
另外一种以内容为核心的推荐系统,是将内容进行分类,然后以喜欢某一内容的用户,应该也喜欢同一类型的其他内容为基础,向用户进行推荐。亚马逊就是使用的这种方式,当某个用户在亚马逊中点击了某件商铺之后,回到主页就会看到同类型的其他商品的推荐。
这种以内容为核心的推荐算法在新内容进入系统的时候,推荐的效果也会出现偏差。
曾经有一个很神奇的案例,潘多拉电台,在系统上线的时候,用户和内容都是新的。无论采取哪种推荐算法,都难以得到很好的效果。于是潘多拉做了一件事情,邀请了大量的专家,将几十万首歌曲和音乐请这些专家进行评定和打分。将音乐分为四百多个维度进行评定,形成了一个完整的评定模型库。每一个用户进入的时候,首先要填写自己的喜好,系统根据用户的喜好和专家评定的模型库来进行推荐。
一个新的系统,既没有用户也没有内容的时候,总是内容要更容易处理一些。花钱做内容,不论是用什么方法,其投入产出比通常还是可以进行预估的。但是,如果花钱去做用户,其结果通常就像天朝的新闻联播那样,制作和观看的人都知道那是靠不住的。
总结
智能广告系统,对于那些小网站和小应用来说意义不大,这是个大公司才能玩儿得起的东西。现在很多大公司都在做平台,吸引那些小型的应用和服务进驻他们的平台,他们其实就是希望能够依靠广告来赚去利润。
推荐系统将逐步走下神坛,成为所有系统和应用的必备选项。但是推荐系统目前还主要停留在两个极端,大公司可以使用一些数学家来为他们设计模型和算法。而那些创业团队中的程序员们,则完全是根据个人的力量在单打独斗。目前的推荐系统,其数学部分和算法部分,很难被现在学校里面毕业的那些软件学院的本科生甚或是研究生所理解,现在的学校课程的划分越来越细化,那些以应用为目的的学科,其基础课程的重量已经越来越轻了。
记得我95年大学毕业的时候,有人说,数学对于以后的程序员来说所需要用到的绝大部分是加法,减法和乘法偶尔用到,除法基本不用。现在看来,计算机虽然主要用途已经不再是计算,但数学对于这个以智能为核心动力的时代来说显得比以往任何时候都更加重要了。
相信那些位于两个极端中间的一些智能推荐工具将在不久的将来风行起来,那些不需要开发者具备太多专业数学知识,就能够被使用的开源或开放的云端推荐服务和系统,应该会在未来一段时间里面逐渐涌现,并最终形成类似于Apache、Nginx那样的东西。
6 月 18
Luke Fan 杂谈 LBS , 活动 , 社区
6 月 11
Luke Fan 梦想园 活动 , 社区
关于五道口沙龙
这是我第一次参加这个网易和一大堆赞助商合办的活动,虽然叫做五道口沙龙,但是位置距离五道口还是有一定的距离的。周日(2012年6月10日)的这一期在北大博雅国际酒店举办。酒店相当不错,wifi速度很快。唯一的缺憾就是,来参会的人实在是少了些。总共也就是三四十人的样子。因为当天有一个盛大创新院的主题,盛大创新院就来了7个人,其他几个有主题的单位再加上赞助单位和网易自己过啦的人,不知道会场里面是不是还有其他人。
按道理来说,网易应该也算是一块金字招牌,五道口更是号称宇宙的中心,就算网易办的五道口沙龙,距离五道口稍微远了一些,也不应该只有这么几个人参与啊?而且,社交视频分享这个话题也算是一个比较热门的话题了。
我心中的疑惑在会议开始之后,被主持人解答了。主持人要求大家使用网易微博进行讨论,看来他们也是在网易微博上做的宣传。做这种会议,缺乏开放的心态,是很有问题的。
五道口沙龙里面当然也不是一无是处,一个比较有趣的东西就是那个横向数据比较表。在会场的前面有一块大号的白板,上面是每一个应用的名字,在每一位嘉宾开始之前,必须要介绍应用的基本情况。包括上线时间,用户数,日上载视频数字,团队人数和融资情况。
当天的四个产品,用户数字都很少,大部分人都不好意思说。即使是有几个不怕丢人的,也就是十几二十万用户的样子。上线时间有先有后,但前后也差不出几个月,基本都是看到viddy拿到风险投资之后,开始做的。日上载数字,优酷拍客有接近1000个,微酷和微拍都是100个左右。团队规模基本上都在10人上下。资金状态,微酷和优酷拍客是用的企业内部资金,微拍拿的是创新工场的投资,眩拍使用的则是天使投资。
很遗憾没有拍什么照片,大家到网易微博上去找照片吧。就算拍也拍不到几个人。
社交视频分享
这期的主题是社交视频分享,在Instagram被10亿美金收购,在Viddy和SocialCam蓬勃发展的今天,通过社交平台进行多媒体信息的分享,肯定是一个非常热门的话题。
国外的Social Network Services在开创的时候,在多媒体信息这一块做得都不是很好。Twitter根本就不支持图片,Facebook虽然支持图片和视频,但是在pc端和移动端支持得都不是很好。这就给国外的图片微博、视频微博等多媒体内容分享的平台留下了充分的生存空间。
更加有别于国内市场的地方在于,即使那些SNS巨头们发现了这个新的盈利点,他们也没有冲过来将其吃掉,而是选择了耐心的等待,在这块领域的产品相对成熟之后,将其收购下来。在活动后面的投资经理点评环节,嘉宾也说了,在国外这种企业有着第三种退出方式,而国内通常只有两种。也就是说,在自己盈利和IPO上市之外,国外的此类应用还可以被大公司并购。
国内的社交视频分享市场,在看到了国外大量同类应用蓬勃发展的时候,也逐渐升温,就像任何一个在国外发展得很好的领域那样,迅速的杀出很多大小鲨鱼、鳄鱼和食人鱼,抢夺着不多的几个高端白领用户。
微酷——高科技堆砌出来的产品
微酷的介绍,听起来他们的特色主要是在于技术门槛。微酷不像其他几家那样使用通用的滤镜渲染引擎,而是完全自主开发了一套实时拍摄渲染滤镜引擎。他们现在在产品中展现出来的仅仅是这个庞大、强大、神奇、划时代引擎的冰山一角。
而且,在微酷超强研发团队的努力下,他们将这套引擎中的绝大部分功能,优化之后,从服务器端迁移到了移动端。用户完全可以在本地就享用那把杀鸡用的牛刀。
微酷将产品的各个细节介绍得非常详细,感觉就像是在向导师做课程设计的大作业报告。但是好像漏掉了用户的部分,没有用户故事,没有说明微酷在满足哪些用户的哪些具体需求,以及微酷自己到底为用户解决了一些什么问题。应该仅仅是漏掉了吧,这样一款产品怎么可能缺乏这么关键东西呢?
拍客——依托大平台的UGC延伸
继微酷之后,第二个上来做分享的是拍客,拍客是优酷的一个拍摄工具。
其实拍客并不算是一个完整的社交视频分享工具。一个完整的SNS内容分享工具,应该包括数据的录入(拍摄或本地上传),数据的处理(智能分类和推荐、分发),数据的输出(用户订阅和消费内容)三个部分。拍客仅仅完成了数据的录入和部分的数据处理。其他的部分都是在优酷上面实现的。所以拍客只能算是优酷的一个UGC延伸工具。
优酷最早也是希望能够复制Youtube做UGC(用户生成内容)模式,后来转向了Hulu模式。也就是购买版权,在用户消费有版权内容的时候,依靠广告收益达到盈利目标。
各大互联网视频网站拿着美国股民的钱血拼中国电视剧版权的结果,就是电视剧的版权价格快速的起飞。普通剧集每集的成本也要达到几十万人民币,那些热播剧更是高得可怕。
优酷在并购了土豆之后,还在和腾讯、新浪、搜狐、百度等大号互联网公司继续争夺版权内容。同时,他们也转过头来,希望能够有更多的UGC内容充实他们的内容库。UGC内容成本基本可以忽略不计,但同样可以带来一定的收益。
拍客的口号是:这一秒在你拍,下一秒世界在看。优酷充分的利用了现在互联网第一视频网站的身份,向使用拍客的用户承诺最大的观看用户数。他们将审核上线时间缩短,让拍客所拍摄的内容具备更强的时效性和媒体性。并在优酷中使用最好的推荐位置,推荐那些热门的拍客视频。
优酷还利用优酷已经被所有SNS网站都接受了的播放器来将拍客拍摄的视频直接推送到所有的SNS网站上去。其他一些应用本来也可以利用这种便利的,但是仅仅是因为一些技术人员的洁癖,他们放弃了。
拍客解决了用户内容快速传播的需求——快速的审核,最好的位置向最大的视频网站的用户直接推荐,直接无障碍的在各种SNS平台上流传。以后他们还准备再将各个sns平台上面的评论归并回优酷平台,可以让用户在统一的平台上看到所有sns平台上面对他发布内容的回馈。
眩拍——华丽转型直播客,仍然前途未卜
眩拍是个很奇怪的产品,作为嘉宾跑来分享社交视频分享应用,但是站在台上却说他们发现这个领域完全没有生存空间,所以已经完全转向了。眩拍产品的最后一个版本是去年11月的,在那之后已经停止更新了。现在在做直播客,做线上视频直播。
今天早晨在网上搜了艘,大家在讨论主要是直播客的网站为什么打不开了?这也许并不是周日演讲的那个直播客,但是可以想见,在天朝统治下,这种直播类的应用运营风险是十分巨大的。运营成本也是非常恐怖的,这种应用都是需要用真人来对内容进行审核,万一不慎直播了个散步或者交通事故什么的,可能马上就会面临灭顶之灾。
微拍——夹缝中求生存,做大公司不愿意做的事情
微拍的那位分享嘉宾就是中国特色的职业创业家。这种人以创业为职业,一次一次的创业,将创业过程中的各种环节都摸得非常透彻。就像我们通过高中三年的培训,能够将一个个的学生培养成考试专家那样,这些人对于创业中每一个环节的数据把握得相当精确。
微拍在开始做之前,就做过详细的市场和用户分析,他们发现优酷之类的大型网站主要盯着的是媒体性较强的内容,于是他们就决定不做那些媒体性强的内容,而是做那些没有什么明确意义的内容,以无聊人群和无聊内容为主要目标。大公司瞄准的是后置摄像头,微拍就瞄准前置摄像头做自拍。总之,微拍是做一些大公司不愿意做得范畴。
微拍的特色就是美女视频,一些90后自拍一些很无聊的自拍美女视频,这些视频完全没有任何实际的意义,但是却吸引力大量无聊的人事上去点击观看。做互联网和移动互联网应用的一个原则就是“永远不要低估无聊的力量”,当你觉得一个应用很无聊的时候,总会有一些更加无聊的人来使用这个应用。
这其中深层次的原因,据嘉宾说,他们自己也不是很清楚。但是有不少人在上面询问微信号码,看来还是满足了一些温饱之外的根本需求。
微拍满足了用户空虚无聊时的某些特定需求,那些新人类总有些老头儿、老太太们很难理解的需求,微拍很好的满足了这些需求,所以在吸引了很多新新人类的同时,也吸引了不少邪恶的大叔。
微拍的定位非常精确,对于用户心理的把握也十分准确。他们所有的界面,包括图标和操控的设定都是为了能够吸引他们的目标用户(90后小女生)。微拍也没有妄图依靠视频分享来建立自己的SNS社区,而是完全采用的新浪微博账号。那个从无到有建立SNS社区的大时代已经过去了,现在还想做这件事情,所需付出的成本将变得非常高昂,而且成功的机会不大。
对于微拍这个产品,他的用户群体和腾讯的QQ、空间、圈子、朋友、微信群体的重合度非常高,如果被腾讯模仿推出类似产品,或在某些相关产品中推出了类似功能,微拍能够成功抵御的机会微乎其微。这可能也是微拍使用新浪微博账号而不使用腾讯账号的一个根本原因吧。
总结
今天困扰着视频行业的有些问题,在未来将不再是问题。带宽、容量、流量的费用,这些目前困扰着国内视频行业的问题,应该都会随着时间的推移而逐渐被解决。可以预见,在不久的将来,存储介质的价格会不断的下降,服务器带宽资源和成本也会随着越来越多的数据中心如雨后春笋般在神州大地上逐步的建立起来而快速的下降。城市里面的带宽正在不断的变大,wifi的覆盖面积正在逐步的扩大,终端流量最终肯定会走向免费的。
当然也有一些问题解决起来会慢一些。虽然随着移动终端芯片的能力越来越强,多媒体内容可以采用一些更好的压缩方式。但是移动终端电池的容量在短期内还是很难提升的,而多媒体应用在耗电方面估计应该也是很难降低的。另外就是内容审核这个巨大的人工成本应该在短期内也是很难消除的。多媒体内容的计算机检索和基于内容的智能推荐在短期内也是很难有可以产品化的技术问世。现在通过文字和用户行为分析来进行内容推荐的方式,将成为拖累视频内容分享继续发展下去的一个重要因素。
任何应用的发展关键还是在于“如何抓住客户”,采用了多么神奇的技术,如果那不是用户所需要的,还不如不要。任何应用都需要为用户解决具体的实际问题。如果无法解决实际的、具体的问题,那么这个应用只能停留在实验室里面,为这种应用去做推广完全就是浪费。
除了微酷提到了因为用户使用了手机,所以他们的应用就是强社交应用之外,其他几家都不敢妄谈社交,只是在说应该如何增强用户和内容之间的互动,如何利用好现有的社交平台,特别是优酷拍客,他们投入了大量的人工编辑,对有限的内容进行人肉处理和推荐,让有限的内容尽可能发挥出更大的作用。利用现有的用户和sns上面的用户,尽可能的围绕有限的优质内容进行互动。微拍更是省去了自己的用户体系,直接使用新浪微博的账号体系。现在这个时代,还妄想要从无到有重新建立起一个全新的SNS关系,并不能说是完全的痴人说梦,如果不是在非常封闭的细分市场中积累个三五年,基本是不现实的。
在有大量的职业创业者和大型鲨鱼、鳄鱼、食人鱼参与的社交视频分享这个圈子里面,就像其他类似的圈子一样,应该还是有可能出现一些成功团队的。
以前总是以为,在国内,人力成本很低,用户基数非常庞大,各种规章制度不是很健全,通过一些手段可以将国外应用积累了几年才能达到的数字快速的达到。现在看来,考验一个项目的生命周期其实并没有缩短,还是需要三到五年的时间,只是和国外的差别是,别人在着三到五年中,逐步改进产品,积累用户;而我们则是先快速冲击数据,然后再逐步改进产品,积累真实用户。
周日去五道口沙龙分享的四位嘉宾最终是否能够有人在这里面脱颖而出,我们这里做预言实在是太早也太不负责任了,最终还是要看谁能够持续的改进产品,积累用户。当然,这个里面政策和运气的因素也是非常重要的。
五道口沙龙以后应该不会再去参加了,实在是比较无聊。
Older Entries Newer Entries