硕鼠的博客站

范路的博客主站,时而会发些东西。

Archive for 7 月, 2012

华蟒沙龙——第N次活动

这是华蟒沙龙在盛大创新院子御膳房会议室举办的第二期活动了。经历了7月21日大雨的洗礼之后,7月22日的这一期活动到场的人也还是不少的。

DSC 0155

本人对于Python不是很了解,中间有些事情,听得也不是很完整。只能就着印象比较深刻的一点来记录一些东西了。

会上有一个兄弟,用非常平缓的语调,介绍了他们的项目。以及他们希望招聘的职位。这位兄弟是做电影特效的,在这种程序员聚会的活动中,出现了一位身份如此玄幻的兄弟,确实让人眼前一亮。

现在的电影特效软件中,大部分都支持python作为后台的调度语言。电影特效,和电视特效有着本质的区别,电影的分辨率是非常高的,在电视编辑软件还在考虑1080p甚至于4k的分辨率时,电影通常一帧的容量就能达到GB级别。在这样精度的视频上做特效处理,其难度和运算密集度可想而知。具那位语调平缓的兄弟介绍,他们公司有50台服务器,去年制作了一部《百万巨鳄》,整整用掉了一年时间才计算完成。现在国家重点扶植的一些动漫产业基地,已经开始建设渲染农场,让那些需要进行渲染的团队,可以按需租用这些设施。在调用庞大运算资源来进行渲染的过程中,任务的调度是一件非常关键的事情,而这件事情就需要python程序员来贡献力量了。

python确实是一种很有趣的语言,可以去做很多工业控制、网络设备控制、渲染流程控制方面的工作。希望以后能够继续在华蟒沙龙的活动中听到python各种各样不同的应用场景和故事。

Ruby on Rails第一次线下活动

2012年7月21日,对于北京人,和那些恰巧那一天在北京的人们来说,都是一个很不寻常的日子。一天一夜的大雨,让北京那脆弱的排水系统彻底崩溃,某些远郊区县发生了洪涝灾害,甚至有一个文化人被淹死在了自己的汽车里面。同时也还有人跳出来说预报到位、预警到位、预案到位。

Ruby on Rails的第一次线下活动就是在这一天举办的。时间是早就定好的,也没想着会有那么大的雨来为这次活动助威。

说是第一次其实并不准确,Ruby on Rails的线下活动,在上海还是做了不少次的,在北京总是搞得少了一些,以前也不是没有搞过,但是这中间停摆了很长一段时间,这是ruby on rails社区,北京地区活动回复正常化的第一次活动。如果能够坚持一个月一期做下去,那么这就是名副其实的第一期,如果这一期之后,又停摆很长时间,那么下一次依然是第一期。

虽然暴雨如注,但是来得人并不少:

 

这场活动有两个主题演讲,分别介绍了ruby on rails前端技术——sass、compass和bootstrap;以及ruby on rails的一套TDD开发框架。

bootstrap确实是一个好东西。这套框架可以让那些不是很了解前端开发技术的人,快速的套用各种前端设定,现在已经有很多网站在套用bootstrap了。就像以前delphi的vcl那样,这种标准化的前端界面套件,初一看上去会让人觉得眼前一亮,但是如果被太多网站所采用,那么也就难免出现同质化的问题,很多网站会长得差不多。一开始大家可能会觉得长得不一样的网站不够好看,但最终肯定会出现审美疲劳,那些与众不同的网站又会脱颖而出。这应该也符合分久必合、合久必分的发展过程吧。

现在还不需要去想那么多,至少目前对于我这种半路出家的web程序员来说bootstrap还是一个相当不错的选择。我想,这套东西可能会被不断的完善,很多人也会不断的为bootstrap添加各种新的风格和插件,甚至是皮肤之类的东西,在被新技术完全取代之前,bootstrap应该还会蓬勃的发展很长一段时间。

关于TDD,MDD之类的各种各样的开发驱动方式来说,在项目规模达到一定程度之前,其意义都不是那么大。不论是测试驱动还是模型驱动,都是以项目和团队已经庞大到很难通过面对面的沟通实现有效的管理的前提下产生的。学习一下是不错的,但是一个项目是不是要在一开始只有两三个人时候就上这种东西,值得商榷。

期待下一期的Ruby on Rails社区活动。

 

 

在windows上安装RMagick

Ruby on Rails里面有很多东西的安装和配置是非常麻烦的。其中RMagick就是其中赫赫有名的一个难装的包。RMagick是一个图像处理的报,主要是用来做各种图像的处理。
RMagick分为两个部分,一部分是ImageMagick,这是一个远胜于言编译的二进制图像处理库,另外一个则是RMagick,通过原生语言调用那些ImageMagick,然后再为Rails应用服务。所以安装RMagick,不论是在什么系统上,都需要先安装ImageMagick,然后在确保编译器工作正常的情况下,安装RMagick。
在ubuntu下面应该是最容易安装的,ImageMagick可以直接去apt-get,linux系统中的编译器通常也不需要再进行特殊的设置。
Mac下面要稍微麻烦一些,首先要去搞个MacPort之类的东西,然后才能安装ImageMagick,编译器则需要去下载那个1G多的XCode。我这里刚刚升级了10.8,又要去重新下载XCode了。有了ImageMagick和XCode之后,就可以gem install rmagick了,自动安装最新的版本。
最麻烦的是windows,前几天给一个兄弟的windows机器安装Rails环境,被这个东西折磨得欲仙欲死。
下面是一篇我查到的最完整、最正确的教程了,来自Stackoverflow。
  1. 安装 DevKit,这个DevKit就是Ruby在windows下调用的编译器 : https://github.com/oneclick/rubyinstaller/wiki/Development-Kit 。以前这个编译器在某些地方,必须要翻墙才能下载,现在换到了github下面,可以直接下载,不需翻墙了。
  2. 安装 ImageMagick,要记得在安装的时候勾选,安装头文件。 http://www.imagemagick.org/script/binary-releases.php/#windows 需要注意的是:不要将ImageMagick安装到有空格的默认目录下,在 C:/Program Files/… 下面,是不行的。要安装到一个简单的目录下面。
  3. 注意移出所有以前版本的ImageMagick和RMagick
  4. 这是关键的一步,将ImageMagick的目录,设置到环境变量中

    set DFImageMagick ImageMagick的安装目录
    set PATH=%DFImageMagick%;%PATH% 
    set CPATH=%DFImageMagick%\include;%CPATH%
    set LIBRARY_PATH=%DFImageMagick%\lib;%LIBRARY_PATH%

  5. 安装 RMagick : gem install rmagick 
    当前版本,正确的输出应该是这样的: Temporarily enhancing PATH to include DevKit… Building native extensions. This could take a while… After some time, Successfully installed rmagick 2.13.1

  6. 校验一下安装的结果:

    A. convert -version 
    显示ImageMagick的版本
    B. gem list –local 

    输出中应该包含  rmagick 2.13.1
    进入irb 测试 
    require ‘rmagick’ 
    应该输出 ‘true’

     

    我还看到了很多文章和帖子,介绍通过本地安装来安装RMagick,这种方式通常装上的版本都不高,很多项目做bundle install的时候,会有问题。

     

17Startup第九期——本地生活服务

17Startup是一个记录创业公司生存状态的数据库。里面收录了各种创业公司的起起伏伏。在记录的同时,17Startup还会定期的在北京、上海、深圳等城市举办线下活动,每次的线下活动都会选择一个主题,邀请这个主题相关的,相对有一些底蕴的创业公司来为大家分享创业过程中的一些故事,然后邀请投资人对创业项目进行点评。17Startup的寓意就是一起来创业,让创业不再孤独,这些线下活动就是创业者和投资人聚集在一起,分享创业故事,让创业者能够找到那些对他们有所帮助的人。

这是第一次在盛大创新院的御膳房会议室里面做17startup的活动,以前这个活动都是在车库咖啡举办,在咖啡厅举办活动,现场总会有很多闲杂人等,在创新院的会议室里面做活动,虽然来得人要更加集中一些,但是也缺少了那种这边说创业,那边做创业的气氛,各有利弊吧。

下图就是御膳房会议室,椅子的品种比较纷杂。

1

 

签到处:

2

 3

 

美丽的女主持人一身红裙。@顾三小姐 在离开了盛大创新院之后,在一家投资公司中做投资经理。

 4

 

活动开始之前,早来的投资人们在相互打着招呼。

5

 

活动开始,首先由本人欢迎大家来到盛大创新院,参与这场活动。

6

 

主持人在做开场介绍。

7

 

会场中座无虚席,当天到场人数超过150,应该是这个会场建成以来,参会人数最多的一次了吧。

17

 

 

会议正式开始,首先是数据分享。

艾德思奇的王迪志在介绍数据。艾德思奇是一家移动互联网的广告平台,他们为移动互联网应用提供广告服务。那些应用可以接入他们的广告,并通过用户对这些广告的点击得到收益。通过他们的数据可以看到,现在移动互联网的应用装机量还是在稳步上升的。移动互联网应用中,和生活有关的应用,主要是天气类、工具类和导航类,这三个大类在最近半年的装机量、广告展示和点击次数,都在成几何级数上升。这三块和生活息息相关的应用,天气和导航所占比例的总和,就是生活相关工具类应用所占有的比例。从数据上来看,生活服务类应用的增长是这三类和生活相关的应用中最迅猛的。

8

 

当天,会议还迎来了一位重量级的嘉宾,那就是来自赶集网的副总裁王振华,他简单的为大家分享了一些他们对于本地生活服务的看法。第一、生活服务的数据形式是相对统一的,基本都是一个图片,一个标题,一段介绍和大家使用这个服务之后的点评。但是,在这相对统一的数据平台上,可以实现的服务,是千差万别的,每一个细分领域,每一个地域都可以做出完全不同的服务。第二、生活服务主要是依靠自助式服务被用户所消费的,用户从零到一,可能需要宣传和推广,但是从一到一百、从一百到更多,还是要靠服务本身的沉淀了。第三、作为互联网企业,维持线下团队是一件非常痛苦且高成本的事情,所以他们现在正在大力的消减其线下团队。

9

 

17startup每次都有一个环节,就是由17startup的创始人文飞翔同学向大家分享他们搜集到的行业数据。通常数据都是一片大好,不是一片大好的形式,这个主题也不会跑到这里来做线下活动。会后吃饭的时候,文飞翔说考虑要做一期已经关闭和失败项目的活动,期待啊。

10

 

在数据分享之后,就是创业团队分享,每个团队只有5到10分钟的分享时间。

第一个上来的是悦乐优惠的联合创始人林应明,他的分享是我所听过的各种分享中比较有特点的一个。通常大家都会出来讲一讲自己的产品有多么多么好,做了哪些成功的案例等等,林应明却反其道而行之,讲了几个他们自己失败的案例。他们做优惠券,先跑去找那种全国性的快餐连锁企业,除了永和,以及刚刚进入中国市场正在打天下的汉堡王,其他企业包括麦当劳和肯德基根本就不愿意和这种团队合作。在没有得到大型连锁餐饮企业授权的情况下,他们就没有将麦当劳的优惠券放入到他们的系统中去,结果被其他竞争对手所领先。在这之后,他们才发现那些大型连锁餐饮企业对优惠券的管理模式并不排斥第三方应用对其优惠信息的传播。他们也印过DM单,商家很喜欢,效果也很好,但是从线下到线上的转换效果非常差。线下推广的成本非常高,尝试之后也放弃了。还做过员工优惠,效果还不错,但是传播性很差。当有人问到他,有什么成功的经验时,他说现在正在做的东西,还没有成功,所以不能算是成功经验,也不方便和大家分享。

11

 

第二位上来分享的是阿姨800网的黄剑,他做了一个月嫂服务网站。这个网站并不直接面对月嫂,而是面对那些月嫂中介,将月嫂中介的信息放到网上,帮助月嫂中介进行推广和宣传。当投资人问他是否有计划自己跨过中介,直接为用户提供月嫂服务的时候,他表示,以后可以考虑,但这其中涉及到很多责任,比如月嫂如果为雇主带来了什么经济损失,或给婴儿带来了什么伤害,或者是发生了什么工伤事故之类的事情,责任判定和后续事物处理非常繁琐,他们目前还没有这个能力。

12

 

第三位上来的是懒得淘的创始人庞一,这是一位从清华毕业的美女,这个样子至少在清华是可以算作美女了吧。她希望做一个通过亲友之间的social关系来帮助大家选择礼物的网站。她说:现在一个人在淘宝上选择一件商品的时候,需要点击和浏览大量的网页,这是一件非常痛苦的事情,使用了她的网站,她可以将买到一件礼物所需点击的网页数目降低到最小。每个人都可以在这个网站上为别人提供礼品采购咨询服务。国外有一家类似的创业企业,现场的KPCB基金在海外就是懒得淘的那个原型企业的投资商,在KBCB的张灵对这个项目进行点评的时候说:她认为这就是一个购物推荐系统,和美丽说之类的应用有些类似,但是对于礼品市场来说,国内外的差别是巨大的,国外的零售商、卖场和网络卖场里面都有专门的礼品卡,礼品市场是非常成熟的,而国内在这一块的整体成熟度还差得比较远。

13

 

第四个上来的是一个做订餐的,美餐网的创始人赵晓。使用苹果电脑的人,PPT确实做得比别人要好很多。美餐网,作为一个订餐网站,并不提供送餐物流,只是管订餐。美餐网目前主要为国内最大的几个城市服务,很多不在他们服务区域内的用户下载了他们的应用,导致订餐失败。做这种O2O的服务,如果不能选择一个信息化很好的行业,就需要为线下的一方,提供信息化帮助,美餐网为餐厅开发了订单打印机和餐厅客户端,如果餐厅已经有了网络,他们可以将饭店接收订餐的成本降低几十倍。美餐网还提供了支付业务,用户可以直接在线支付。现在的订餐系统,另外一种形式就是像到家美食那样,自己提供物流服务,那是一种比较重的方式。很多没有送餐服务的大型饭店更喜欢到家美食的形式。

14

 

第五位上来分享的是帷幄便利的联合创始人孙会业,他们是做小区便利店购物的。用户使用他们的服务,可以就近在小区的便利店中选购商品,然后便利店负责送货。帷幄便利目前主要是靠收取小区便利店的推广和广告费用,以及帮助小区便利店提供集中的供货服务来取得收入。现在只能提供北京望京地区的服务,其他地区还在逐步发展之中。他们想做的事情实在是太多了。

1

 

第六位分享嘉宾是豆角网的市场总监尚惠鑫,她为大家分享了一些豆角优惠的市场营销案例。

15

 

最后一位分享嘉宾,是来自外卖库的联合创始人孟超,外卖库虽然号称是做外卖订餐服务的,但其实是一种汇集外卖订餐信息的媒体。他们团队的三个创始人都是清华毕业的,在做其他项目的时候,感觉订餐的体验非常不好,于是就决定自己做一个。很多创业者想要做的事情,都是自己在日常生活中没有得到满足的那个方向。

18

 

在嘉宾分享之后,就是投资人的点评。主持人要求他们说出三个选择本地生活服务类项目时的标准。他们做出的点评各具特色,但给出的标准却基本是相同的。我参加过不少的创投类活动,投资人给出的选择标准基本都是相同的。基本分为三点:1、是否为用户解决了实际的问题;2、团队的质量;3、业务是不是有门槛,是否能够抵御抄袭。

第一位点评的投资人:IDG资本 陈晓

20

 

第二位点评投资人:经纬中国 肖敏

21

 

第三位点评投资人:KPCB凯鹏华盈 张灵,她强调了,KPCB在选择团队的时候,会考虑到这个项目是不是能够做大,是不是有机会变成一项大买卖。

22 

 

最后一位点评投资人:求索创投 陈中,这是一个以整个东南亚作为活动范围的投资机构。他说,东南亚地区,互联网和移动互联网用户的数量,一点儿都不比中国少。

24 

 

上面是简单的介绍,以下是本人本次活动中本地生活服务的一些看法。

O2O中的O和O之间

现在的O2O非常火,本地生活服务就是O2O的一种具体表现形式。所谓的O2O,就是将线下的东西,发展到线上来。通过互联网和移动互联网的信息传播方式,将原来线下的那些传统产业推广出去。有了互联网的推广和宣传手段,原来的传统线下产业,就可以得到更多、更廉价、更精准的宣传推广机会,更多的人可以通过互联网和移动互联网找到他们所需要的东西。

这里,online to offline就是O2O的两个O了,这其中,online的人,通常并不了解offline的产业结构,不了解offline的商业模式。offline的人反过来也不了解online的商业模式。今天做O2O的大多是一些online的人,那些offline的人好像都坐在那里等着online的人来拯救他们。而online的那些人,特别是那些愿意付出智慧和努力的人,正在逐步的了解offline的情况,比如帷幄便利的人就坐到便利店里面一周的时间,去了解便利店的运营模式,以及便利店主的各种需求和想法。有些offline的人也在尝试去了解online,比如上海第一百货,就试图去做电商,还有一些其他的百货和超市尝试去做电商,不过他们大多都失败了。从失败率的角度上说,不论是哪一个O出发去做O2O,应该都是差不多的。那么,为什么现在主要是online在付出努力呢?这是因为,愿意投入去做O2O的online团队,不论大小,都能够找到自己的切入点,那些大型的互联网企业去做电商,那些小型的团队,甚至是创业团队则去做一些本地生活服务,各种细分市场无穷无尽,大家可以很充分的去试错。试错的成本也不是很高,现在还有大量的天使和VC愿意投钱去试错,对于创业者来说,甚至可以将试错作为一种职业。而offline中那些中小型的,根本就不了解互联网,他们也没有能力去做这种尝试。那些大型的offline企业,他们的很难找到那种小型的项目进行尝试,试错的成本非常高昂。而且,那些传统线下企业,大多都拥有相当完善的规章制度,而这些规章制度并不适应互联网企业,所以在大型offline内部建立O2O业务的成功几率是很低,同时失败的成本却要远远大于从online的一头来实现O2O。

O2O的两个O之间都有些什么呢?

1、需要对两个O都了解的团队。

如果只了解其中的一个O,那么是做不好O2O的。当天现场的很多团队和投资人都认为应该消减,甚至裁撤团队中的线下人员和线下力量。互联网公司里面的线下人员和线下推广力量是一个典型的以online方式管理offline业务的案例,上面说了,以offline的成型规章制度管理online团队是绝对的悲剧,其实反过来亦然。那些线下企业,如果使用online方式来管理,那么恐怕早就cover不住成本了。online的人,认为下线团队的成本过高,收益不够,无法支撑。其实线下的那些传统行业又何尝不是这么看待互联网团队的呢?online团队不喜欢线下团队的主要原因在于,使用互联网方式管理线下团队成本太高,工作效率太差。那些不喜欢线下队伍的团队,其实还是对offline的部分,了解还不够深入和透彻。

阿姨800网,作为月嫂中介的网络延伸,他们提供的居然也是一张照片、一个格式化的月嫂信息描述和一个标签化的月嫂技能标识、一个价格。其实月嫂的工作是很周期性的,都是按照整月来聘用的,而且不是从月初到月末,是根据准妈妈们的预产期来确定时间。所以月嫂信息里面有一个很重要的内容,应该是月嫂当前的状态,那些闲在那里没有人用的月嫂,我是不会用的。当初我儿子出生,去聘月嫂的时候,就是只找那些正在别人家里服务的月嫂,然后计算她们合约到期的时间,再在时间相对合适的几个月嫂中根据其他各项条件进行筛选,选定月嫂之后,还要亲自带着月嫂去体检。而且,月嫂通常是已婚已育的,那些未婚或已婚但没有孩子的月嫂也是大家不喜欢的。这些信息,在ayi800的网站上都是没有的。至少我是不会考虑在这样的地方找月嫂的。

2、需要配送和物流服务。

offline原来没有互联网这种全球化的推广渠道,他们也不需要将他们的产品和服务推送到全世界去。但是,现在情况发生了变化,全世界的人都通过互联网了解到了线下的那些服务和商品,那么问题就来了。谁来负责将商品和服务配送到最终客户手中呢?大多数online团队是没有能力自己去搞定这种事情的,而offline的企业,最多也就是有能力进行就近的配送。本地生活服务就是这样产生的,利用offline企业的就近配送能力,为附近的居民提供服务。配送对于online团队来说确实是非常麻烦的一件事情,大家都不愿意自己去搞定,但是只有解决了这种问题的团队,才有机会发扬光大。

现在的O2O主要是从online一端发起的,极个别的是从offline一端发起的,比如苏宁易购。其实还有一条路,就是从中间发起,从物流企业发起O2O,这应该是一个非常有趣的事情。

3、相关的责任和法规不够健全。

online团队之所以无法深入到offline领域之中有一个重要的原因就是法律法规不健全,送餐服务,如果用户吃了拉肚子怎么办。月嫂服务,如果月嫂卷款跑了怎么办。优惠券服务,如果所提供的优惠卷无法消费和使用怎么办。在这方面online企业通常处于法律方面的弱势。那些灰色地带,那些不守信的行为,对于online企业来说都是有巨大损害的。那些能够迈过这个坎,能够熟练使用offline企业的那些手段来保护自己的online团队,应该也是有很大机会的。

4、要寻找适合中国特色的服务。

并不是所有的服务模式都适合中国市场的,比如那个社交礼品推荐的服务,最终就变成了淘宝导购。能够真正的了解用户需求,解决用户问题的项目才是好项目。一味的抄袭国外的东西,是行不通的。比如国外有那种任务系统,发布了任务之后,有人顺手完成了任务就可以得到一些收益。这种东西在国内也是很难推广的,很多人的收入很低,不需要陌生人帮忙,这些穷人就可以把报酬都赚走,同时,这些人的诚信也是完全无法保证的,他们还会快速的形成行会,排斥那些外来人员抢生意。

总结

O2O不应该是online to offline,不应该是利用互联网技术去推广线下商品和服务。而应该是offline to online,通过对传统行业的信息化改造,最终产生出一批全新的online企业,和online模式,这些企业没有店面,完全依靠online方式进行运营,并最终消灭那些传统的offline产业模式。百货商店的没落,电脑城的相继关张就是这种趋势的前奏。

那些愿意承担更多服务和风险的O2O,会比其他那些避重就轻的团队更有前景。不愿意承担配送,不愿意承担任何责任,无法为消费者提供更安全、更优质、更有保障的服务和产品,最终这样的服务都会沦为媒体和信息渠道。他们只是提供了一些垂直的信息,在整个服务实施的过程中完全无法掌控任何东西。那些本地生活服务,每次就近让offline企业的配送人员和用户进行面对面接触的时候,这些配送人员都会拿出DM单,并告知用户,直接打电话比使用什么O2O更划算。

只有那些愿意承担,并且能够承担更多服务和责任的团队才有机会成功,并最终淘汰offline企业。

IT龙门阵第165期——自然语言处理

6月26日,在盛大创新院北京办公室的御膳房会议室,举办了IT龙门阵的第165期活动——自然语言处理,这期活动的两位嘉宾来自同一座写字楼。分别为来自18楼盛大创新院搜索分院的贾文杰和来自19楼搜狗搜索的张帆。

为了在活动现场能够让两位演讲者有更多的默契,活动主办方特意安排了两位演讲嘉宾提前一天坐在一起吃了顿午饭。相互了解一下对方的话题。不管技术发展到什么程度,处理自然语言的最好方法,还是人与人面对面的交流和沟通,按照中国人的传统来看,要是人与人之间再摆上一些美味的食物,那么交流沟通的效果会更好一些,再有一些酒的话,能够更好,但是考虑到下午要上班,酒就免了。

盛大创新院搜索分院的贾文杰:

P1020190

搜狗搜索的张帆:

P1020251

嘉宾合影:从左到右依此为,本人、贾文杰、张帆、曾贤儒。

P1020302

 

自然语言处理,是计算机智能的开始

现在越来越多的公司已经将目光盯在了智能化上。随着Siri的成功,智能化应用已经逐步的走出实验室,走向大众。

要想让一个应用,或者说要想让计算机具备一定的智能,那么第一件要做的事情就是让计算机理解人的语言,不论是文字、语音,还是形体动作,亦或是表情。自然模式交互,也就是说摆脱了语言文字的交互,对于现在的计算机来说要更加困难一些,IT龙门阵技术专场的第一场活动《多媒体模式识别》探讨的就是这方面的内容。

相对于需要通过多媒体模式识别来实现的自然模式交互来说,直接让计算机进行语言文字的识别和处理应该是更加成熟的技术。

记得刚刚踏入大学校门的时候,老师告诉我们什么是程序语言的时候,他是这么说的:所谓程序语言是针对自然语言而言的,自然语言中充满了二义性,而一段程序语言则拥有唯一的意义。

现在需要让运行程序语言,只能识别0和1的计算机来理解充满了二义性的自然语言,也就是这场会议的主题——自然语言处理。

随着智能系统越来越多的涌现,不论是智能推荐、智能搜索,还是像Siri那种号称是人工智能的产品,都需要实现自然语言处理的功能。自然语言处理是所有智能系统的根本。

中文是一种很难以处理的语言

中文和那些西方语言有一个很本质的区别,那就是我们的文字之中是不写空格的。早先的中文里面连标点符号都没有。古文中就将学生学习读书写字的初始阶段描述为“句逗之不知”,也就是说中国的学生学习读书写字的时候,需要首先学会断句。

感谢现代中文的先行者们,他们为中文引入了标点符号。使得现在我们学习中文的时候不需要再去学些断句了,标点符号可以为我们完成这个步骤。但是他们没有引入西方字母文字中的空格,这就导致了中文成为了一种相对于西方文字更难以被计算机处理的语言。

中文处理是从分词开始的,也就是说首先要做的就是将一句话中的词分拆开来,然后才能使用计算机来进行处理,不同的分词结果,代表着不同的意思。受中国文化很深影响的日文和韩文也有这种问题,也需要进行分词。空格和标点符号都不是韩国人发明的,谢天谢地。

嘉宾介绍了中文分词的发展历程,被普遍采用的四种算法,以及目前最主流的语言模型分词算法。其中的一些例子听得大家热泪盈眶。比如:长春市长春药店,按照不同的分词算法可以被分为:长春市/长春药店 和 长春市长/春药店 。

训练计算机理解人类的自然语言,这个过程和我们教小孩子学习说话有些像。需要将标准的语料库进行人工标注,然后让计算机来学习。这个过程异常漫长和痛苦,现在国内比较流行的人民日报1998年版的语料库。这个库是直到2003年才得以标注完成的。

现在大多数的中文分词系统中都引入人民日报的语料库,这里面有两个问题,第一、人民日报的用语是相当官方的,和人民群众的日常用语有着很大的差别;第二、1998年已经是很久很久以前了,一种被很多人在日常生活中使用的语言的变化是非常快的。要想再做一次这种标注,其成本很高,而且即使标注出来了,也已经过时,毕竟1998年的人民日报是标注到了2003年才完成,这个过程持续了5年的时间。现在的普遍处理方式是,在1998年人民日报语料库的基础上,加入新的平衡语料进行反复的迭代训练,在此基础上加入一些人工干预,然后再进行迭代训练。这里所说的平衡语料库中的平衡,指的是语料库中平衡的包含各种语料,而不是某一方面的语料所占比例特别高。

云计算为中文语言处理带来了什么

所谓云计算就是虚拟化,将原来每一家公司都需要自己做的事情,虚拟化到云端,变成一项服务,然后供大家使用。

以前哪家公司想做分词,想做自然语言处理,就必须自己搞定。现在是云计算时代了,盛大和天津海量信息都提供了云分词服务,任何公司希望能够在他们自己的系统中加入分词功能,或利用分词对自然语言进行处理,不再需要再自己进行开发,直接调用这些服务就可以了。

盛大的云分词应该能够在月内开始公测吧,据说能够达到每秒几百万字的处理速度。

自然语言处理的初期应用——意愿判定

搜狗是从输入法起家的,现在也在做搜索引擎,对于自然语言处理肯定有着和其他搜索引擎企业完全不同的理解。

现在的搜狗正在准备实现自然语言处理的最初级的应用模式,那就是通过用户输入的搜索内容,实现用户意图的判定。

如果用户输入苹果,他们会从用户输入的其他内容或曾经输入、浏览过的其他内容中来判定,用户所需要查找的到底是水果还是水货。

如果用户输入IPhone5,他们也会根据IPhone5是否已经发布了的时间状态来判定,用户到底是希望查找IPhone5相关的新闻,还是IPhone5相关的水货。

对于搜索引擎来说,不但可以得到用户当前搜索的信息,还可以得到用户进行搜索的时间和地点,得到用户的历史搜索记录,得到用户的社交关系,以及用户社交群体搜索的一些数据。当所有的数据聚集在一起,再加上从互联网上爬取来的各种数据,在对所有这些数据进行了自然语言处理之后,搜索引擎就可以做出更加智能的判定。

综合搜索和垂直搜索相结合

判定了意图之后,就可以根据这个意图提供相应的搜索结果。

目前的主流搜索引擎给出的结果都是一个一个的条目,网站条目。这种方式适合于大多数综合搜索结果的列举。同时,现在也出现了不少垂直搜索站,这些站点针对某一类特定信息进行搜索,然后按照符合这一类特定信息的方式,显示搜索结果。比如,有人在普通搜索引擎上搜索机票的信息,得到的会是买机票的网站的条目列表;但是在专门搜索机票信息的垂直搜索站上,就会直接得到机票的班次信息和报价。

对于用户来说,现在这种状况带来两个问题,第一、普通搜索引擎所给出的结果不够好;第二、垂直搜索引擎的数量庞杂,工作生活中各种需要搜索的信息都需要到不同的站点上去搜索,记忆那么多的垂直搜索站点,也是一件非常麻烦的事情。

那么在有了通过自然语言处理技术实现的用户搜索意图判定之后,一个搜索引擎就可以根据用户不同的意图,向其提供不同类型的垂直搜索结果。这也就实现了搜索引擎的智能化。

现在采用这种方式的应用有一些了,比如苹果的Siri,搜狗的搜索引擎,Google Now,百度的框计算。

总结

自然语言处理是智能算法的根本,而智能算法将是互联网和移动互联网应用的关键。任何类型应用,如果想要成功,那么就要实现更少的人为更多的人服务。如果想要实现更少的运营人员为更多的用户服务,那么唯一的办法就是让计算机具备更多的智能。

web1.0、web2.0以及现在在web2.0之后的时代,从发展的过程上来看,就是从少数运营人员为客户服务的web1.0,发展到少数运营人员和一部分客户一起为更多的客户服务的web2.0,再发展到现在,少数运营人员和更多的客户、智能算法一起,为更多更多的客户服务。而且,随着云计算虚拟化技术的普及,不是每一个开发者都需要自己去实现智能算法的部分,完全可以使用云端的服务来实现智能功能,每一个应用都可以使用智能算法来进行信息的处理。

CSDN TUP俱乐部第22期——地图的故事

6月19日的这一场活动的准备阶段发生了一些非常戏剧性的故事,甚至有些惊心动魄。

地图是LBS(Local Based Services)的基础服务,所有LBS服务都需要基于一种地图的底层服务,所以一直希望能够做一场地图的活动。

在进行了精心的准备之后,却突然被告知原来准备的活动,由于某些原因无法如期举行。突然出现这种情况,只能向朋友们请求援助,找到CSDN的刘江老师。给他打电话的时候,他正在美国,听取了相关情况之后,他觉得地图这个主题还是非常有趣的,于是就安排了csdn的几位同事帮忙。给刘江老师打电话的时候,已经是周五的晚上,而活动是在周二晚上举行的,感谢CSDN的同事们,连夜加班工作,利用休息时间进行会议的准备工作。感谢CSDN为这个活动所作出的努力,在这些努力下,这样一场有趣的、有意义的活动最终能够成功的进行。

高德地图和百度地图

这次请到的嘉宾来自高德地图和百度地图。来自高德的王洋是高德地图研发部的经理,百度的严峻则是来自百度地图前端组。

来自高德的王洋:

高德——王洋

来自百度的严峻:

百度——严峻

这是我参加的历次活动中嘉宾的角色相对反差较大的一次。一个是研发主管,而另外一个则是真正实际编码的一线人员。他们从不同的层次,为参会者介绍了地图的故事,也讲述了各自公司对于这个领域的理解,以及他们曾经、正在和将要在这个领域中的投入,他们也分别描述了各自公司对于在地图领域进行投入所期望得到的回报。

新老交替——互相进入对方的领域

高德地图  

高德作为老牌在的地图厂商,是中国拥有测绘牌照的少数几家地图数据提供商之一,王洋也说了,他们的原始业务是地图测绘和地图数据的提供。而现在,高德准备进入互联网和移动互联网这个新领域,为广大的互联网和移动互联网企业或小团队、开发者提供底层的地图服务。希望能够以地图和地理位置作为核心的底层服务,来支撑更多不同的产品和服务,以便更好的为他们现有的用户服务,并开拓出更多的、更广阔的市场和用户。

高德正在进入以腾讯、百度为代表的互联网行业,并希望能够依靠其可靠精确的数据,以及强大专业的服务团队,借着LBS这一波大潮,挤进互联网和移动互联网领域,并在其中占据一席之地。

百度地图

就像上面说的,百度作为国内最大的搜索引擎,算得上是老牌子的互联网企业了。虽然很少使用百度的服务,但是不得不承认,百度在国内的互联网领域算得上是一个泰山北斗级别的公司了。近一段时间来,百度开始大力的推广他们的地图产品,现在已经推出了百度地图、百度地图手机版,其产品也具备了导航功能。

百度正在进入以高德、四维为代表的传统地图领域。并希望以地图为契机,在LBS这波以移动互联网为主要阵地的大潮中能够继续其在互联网领域中的霸主地位。

Google Logo

不同行业中的两家老牌子的传统领军公司投入大量的人力物力,相互进入对方的领域,这其中的主要原因肯定是大家都非常看好由地图和互联网、移动互联网相互组合形成的这个全新的LBS业务。但是这里面也有一个不得不提一下的公司起到了很特殊的作用。

看到上面的Logo大家就知道了,这个公司就是谷歌。谷歌地图是在国际上被最多人使用的地图产品,也曾经是国内互联网上被使用得最广泛的产品,最经常被开发者和创业者作为底层服务所使用的地图了。

而这样的一个产品和高德和百度都有着千丝万缕的联系。

谷歌地图在国内使用的是高德的数据,一家美国企业肯定很难拿到中国地图的测绘牌照,所以使用国内的数据也就成了必然的选择。百度由于是后来者,也没有拿到测绘牌照,只能使用四维的数据。

百度作为一家搜索引擎公司,在很多业务上都对在模仿全球搜索引擎的老大,那就是google,在google由于某些他们自己不可告人的邪恶目的被迫将大部分产品撤离中国大陆市场的时候,百度就趁机大力扩张,并抢占google留下来的空白。google地图现在还在为了地图牌照的事情在各个政府部门之间递交申请和等待批复、盖章,于是百度也就义不容辞的冲了进来试图填补这个空缺。

高德的基础是数据

高德是从做数据起家的,现在其基础业务依然是地图数据的测绘。google到现在为止在中国大陆地区使用的还是高德的数据,苹果的IOS6虽然抛弃了google的地图服务,但在中国大陆地区依然使用的是高德的数据和底层服务。

前几天参加的高德地图api大赛上,高德的老大讲话中有一段非常奇怪。他说,苹果需要一家公司来提供中国大陆地区的地图服务,需要一家公司来提供实时的地理位置信息服务,还需要这家公司能够按照苹果的用户需求和产品设计,提供一些全新的服务。当大家都期待着他骄傲的说出高德就是这家公司的时候,全场听众却发现,这位老大已经骄傲的结束了这段内容。既没有说苹果使用了高德的服务,也没有说高德就是这家公司。在TUP俱乐部的这期活动上,也有人在提问的时候提到了苹果选择了高德的数据和底层服务,王洋同样是那幅满脸骄傲自豪的神情,既不承认也不否认。估计是受到了一些保密条款之类东西的限制吧,他们被问到相关问题的时候都会是这样一个态度的。

高德具有几千人的测绘和地图修订团队,目前能够保证对国内所有县级以上城市和道路,以及绝大部分的乡镇地图数据进行每年四次的全面更新和维护。

在汶川地震的时候,高德第一个派人到现场去,对地震破坏之后的道路进行了测绘,并及时更新到了系统中去,以便让那些进入震区的导航系统及时得到最新的地图数据。

和各大城市的出租公司合作,在每一辆出租车上安装GPS系统,并从这套系统中自动得到路况信息;派人进入公园,进行公园内的信息点和道路的采集;派人进入mall和各类商业地产,对这些原来在地图上只是一个小方块的建筑内部信息进行采集,高德还在不断的完善着他们的数据,还在不断的发掘新手段采集更多的,对用户更有价值的数据。

数据是高德的根本,也是主要现金来源。以后这也将一直是高德的最核心业务。

对数据的深度挖掘带来新的盈利模式

高德在得到了向google和苹果这样的IT厂商和各大汽车厂商销售数据和基础导航服务的稳定现金流支撑之后,开始将触手逐渐的伸入互联网和移动互联网的领域。

在进入互联网和移动互联网领域之后,很多合作伙伴不再是单方面的从高德得到数据,而是反过来可以向高德提供一些POI(兴趣点)信息。高德正在通过语义分析的方式,对这些信息进行甄选和过滤,并希望能够通过对这些数据的挖掘,发现新的,对用户有价值的服务模式。

以前参加一次NTalks会议的时候,一位投资人说过,曾经亲自去询问过4sq公司的人,他们为什么要做check in?4sq的人回答,check in的唯一目的就是不断的校正POI信息点。参见另外一篇博文:《LBS应用中的签到到底有什么用

移动互联网应用由于可以随着用户走遍四方,所以这也是一个非常好的,通过众包方式采集地理信息的方法。

王洋指出,这种使用UGC(用户生成内容)方法生成的数据,是非常不精确的,他们发现经常有不同用户为同一POI做出的标注距离相差超过1.5公里以上。这一部分的内容,他们必须要靠人工的方式才能进行处理。手机在室内是无法使用GPS信号(误差十几米)进行定位的,在没有wifi基站(误差几十米)进行辅助定位的情况下,就只能使用移动基站来进行定位(误差一公里)。如果是两个服务商的手机使用移动基站进行定位,比如一个联通用户和一个电信的用户都使用手机基站进行定位,那么即使他们面对面最在一张饭桌的两边,也有可能连接到了两个公司相聚1.5公里以上的两个不同的基站上。于是他们为同一个POI所作出的标注就会相差很大。

地图就是浏览器,基于位置的信息就是内容

对于两家大厂商来说,他们进入地图领域的原因就在于,地图会成为输入法、浏览器、下载器、搜索引擎、播放器、手机、手机ROM、手机桌面之外的一个新的入口。很多很多的应用,很多很多的服务,都可以通过这个入口被推向用户。

所有有能力的厂商,都会去尝试占领这个入口,至少也要让其他公司占领相同入口的成本有所上升。现在,搜狗在做地图、百度在做地图、微软在做地图、腾讯在做地图、苹果也要在他们的IOS应用中加上自己的地图。在国内,那些有钱和有牌照的公司,都希望能够抢占这个全新的入口。

百度的地图API

就像金山在wps中采用了和微软office完全一模一样的API接口一样,百度的地图API,高德的地图API和一些其他国内公司提供的地图API,都和google的地图API接口基本保持一致,那些以前使用google地图服务的应用开发商,基本上不需要修改代码就可以直接进行移植。

目前百度和高德的API,至少是Javascript部分的API是免费的,而且限制极少。

免费地图模式

大家都处在打江山的阶段,所有的地图服务商现在都在拼,拼其他人先坚持不下去,先退出。活到最后的那一个或几个才是最终的胜利者。

百度是依靠其巨大的流量变现能力,利用其广告和竞价排名的收入来支撑这场战争。而高德则是做为上游数据提供商,依靠销售数据的利润来支撑其进入这个血腥的战场,并期望能够留存到最后,成为最终的胜利者,至少也是最终胜利者之一。

总结

DSC_0731

活动结束,大家拍合影。从左到右,csdn的付江、我、高德的王洋、百度的严峻、盛大创新院的曾贤儒。

地图现在已经成为了一个新的入口,一个被很多大鳄盯着的入口。就像所有大公司都要做自己的输入法、浏览器、手机一样,每一家有能力,或自认为有能力涉足这个领域的公司,都会冲进来狠狠的在这块蛋糕上面咬一口,哪怕蛋糕完全是用黄莲做的。

虽然第一批的国内LBS应用大多都没有生存下来,即使是苟延残喘的那部分,也都没有明确的商业模式和稳定的现金收入,但是所有人都相信LBS应该是一个方向,总有一天这个市场会蓬勃的发展起来。就像微博那样,死掉一批之后,第二批里面就会有人浴火重生。

我还会继续参加各种各样有趣的活动。尽量为每一次参与的活动写一篇博客,但是手比较慢,所以通常会在一周之后才能把博客贴出来,继续坚持吧。

预告

后续在北京创新院的御膳房会议室还会举办Android ROM的PK,由盛大的乐众ROM、小米ROM和点心ROM同台PK。还计划搞一期NoSQL数据库的PK,主要分享Cassandra和MongoDB。时间确认下来会向大家发通知的。

Close Bitnami banner
Bitnami