硕鼠的博客站

范路的博客主站,时而会发些东西。

Posts Tagged ‘数据挖掘 智能推荐 社区 活动’

IT龙门阵172期——数据的故事

2012年7月28日,没有下雨。这打破了每次IT龙门阵都会下雨的惯例。这一期的活动主题是数据的故事,我们邀请到了很多专门做数据挖掘和分析的公司中负责技术的主管来为大家分享一些数据的故事。现在这个年代,在天朝的天空下如果有什么是最缺失的,那肯定是信任了,作为某些领域中信任的基础,这些数据相关的企业,他们到底是如何生存,如何运营的呢?他们在做数据这个行业的时候,又有一些什么样的故事呢?

第一位上来演讲的是百分点的张绍峰。百分点是一家做电商数据挖掘,并根据挖掘结果,为电商提供针对客户行为的个性化智能推荐服务的企业。 

IMG 6858

第二位分享嘉宾,是来自独到科技的张文浩,他们现在做的东西很热,是SNS数据挖掘,他们可以根据一条微博挖掘出很多有趣的东西。

IMG 6776

第三位分享者是来自腾云天下(Talking Data)的数据挖掘总监张夏天,这家公司主要是做移动互联网应用数据挖掘的。他讲得东西是最偏重于技术的。

IMG 6785

最后一位分享者是来自于红麦科技的屈伟,红麦科技是为那些大企业提供舆情监控服务的,他们可以通过互联网和SNS上流传的各种信息,为那些大型机构和企事业单位提供舆情相关的信息服务。

IMG 6819

屈伟的面部表情总是非常深刻的,不知道是不是黑暗面看得太多的缘故。

IMG 6859

这场活动是《IT龙门阵——技术专场》举办以来到场人数最多的一次,从到场的人数上来看,这确实是一个非常热门的话题,有太多人关心这个领域。不论大家是做什么的,对于真相的渴望都是一样的。所以,有这么多人关注最接近事实真相的数据挖掘领域,也是可以理解的。

IMG 6794

那个白胖子每次都来,但这应该是听得最认真的一次了。最为IT龙门阵技术专场的主持人,本人肯定会一场不拉的参加所有活动,这场活动的四位分享嘉宾所分享的东西确实非常精彩。

IMG 6797

很多参会者从头到尾都是站着的,中途无人退场。照片中坐在右侧的那位老先生,是做媒体的,他一直留到了会议结束之后,还在和嘉宾进行热烈的讨论。在大厦9点钟停空调之后,他的衣服都湿透了,依然不愿离去。

IMG 6838

在嘉宾分享之后,按照惯例是四位嘉宾一起登台的互动环节。先由台上的四位嘉宾互相提问,每一位嘉宾可以选择另外一位嘉宾提一个问题。同行是冤家,这个环节通常都是非常火爆的,这次也不例外。首先提问的三位嘉宾都一致选择了向行业老大哥张绍峰发起攻击。张绍峰在回答了三个问题之后,要求依次向另外的三位嘉宾各提一个问题,在得到本主持人的认可之后,进行了有力的反击。他最后问的是他的师弟,依然在读的博士生创业者张文浩,为什么会选择在校期间就开始进行创业?这个时候,张文浩不愧是做Social数据的,直接用微博语言喊出了,求保养。全场哗然。

IMG 6863

活动的最后一个环节是合影,照片从右到左——曾贤儒、张绍峰、张文浩、张夏天、屈伟,以及本主持人范路。

IMG 6867

 

数据的故事

数据是一切的基础。在这个互联网和移动互联网的时代更是如此。每一个产品,每一个企业,每一个用户的行为,每一条SNS信息,这些都是数据。以前很多数据被埋没在各种事物之中,无法被发现和利用,随着计算机和互联网技术的发展,特别是云计算时代的到来,对无处不在的数据进行收集,以及更深度的挖掘和更智能的利用已经成为了越来越多企业和团队的所关注的方向。目前国际上最著名的那些成功的互联网公司和团队,在他们的成功故事中,对于数据的有效、合理利用都会占据重要的篇幅。

互联网时代,从一些人创造内容,其他人来消费的Web1.0时代,发展到了由一些人来组织大家一起创造内容,一起消费的2.0时代。其根本在于用更少的人,为更多的人服务了。而如果希望能够继续用比以前更少的人,为更多的人提供更好的服务,那么就需要智能算法起到越来越重要的作用。

每一个人,每一个团队在这个纷繁复杂的互联网、移动互联网时代中都需要不断的做出选择和判断,而这个选择与判断的基础就是数据。既然大家都那么关注数据,IT龙门阵——技术专场就策划了一场由电商数据挖掘、社交数据挖掘、移动互联网数据挖掘和企业舆情数据挖掘构成的数据专题会议。

电商和全网数据

 张绍峰创办的百分点,为电商提供全网的用户行为分析。所谓全网,指的是百分点可以跨越电商,从多个电商平台上跟踪同一个客户的浏览和购物信息,在对这些数据进行了综合和挖掘之后,向用户提供智能推荐。每一个和百分点合作的电商向百分点提供用户在他们网站上浏览、点击和消费的数据,然后从百分点得到结合全网用户行为数据和该电商自己的商品库计算出来的智能推荐结果。

用户有可能在不同的网站浏览、比较、购买各种不同的商品。百分点首先要做的事情是账号匹配,也就是匹配在购物网站A浏览的用户甲和在购物网站B消费的用户乙其实是同一个人。当一个人在不同的终端上使用相同的账号登录了同一个购物网站之后,那么这两个终端将被认定为同一个人所拥有。然后这些属于同一个人的不同终端上登录的各种账号,也将被认定为同一个人。

当一个用户在同一个浏览器上先后登录了两个以上的电商网站或在不同的终端上用同一个账号登录了某个购物网站之后,这种匹配就实现了。

其实这个过程还是挺吓人的,一个生活在社会中的人,对于他不同的社交圈子,是显示出不同属性的。比如我是一个IT公司的职员,是一个丈夫、一个父亲,同时还是很多人的朋友,是社区中的活跃分子。每一个身份对应的购物特性都是不一样的,现在有一家公司直接将这些不同的特性给强行统一了,每一个人都必须做一个表里如一、面对所有场景都保持唯一特征的人。

现在,使用这种技术的网站还不是很多,数据挖掘和智能推荐还存在着很大的局限性,不过随着时间和技术的发展,那个云端的服务器比我们自己更加了解自己的时代,应该不是很远了。

目前百分点已经识别出了两亿个终端,1.5亿个账号。

农村包围城市

将数据和推荐外包给百分点的,大多是一些中小型的电商网站。那些大型的电商网站还是更喜欢自己来做数据挖掘和智能推荐,比如淘宝、京东和亚马逊。这其实是一个农村包围城市的过程,依靠中小型电商网站的数据积累来进行精准的推荐,并确信这些用户即使在那些大型网站购物也应该拥有同样的行为习惯。

如果认为,农民即使进入了城市,也会体现出农民的行为模式,但是这种数据积累和挖掘,永远也无法了解真正的城里人的行为模式,这其实是不正确的思路。

那些在小购物网站上进行网购的人,肯定也会去大型网站购物的,甚至是主要在大型网站上购物,只是某些特定领域的商品会进入小型购物网站对比和购买。那么,百分点的数据积累和挖掘,可以被认为是在农村采集到了一批去玩儿农家乐的城里人的行为模式。那些喜欢在各个购物网站上转来转去的用户,相对于只上单一购物网站的用户来说,应该算是深度网购用户了。

只为小型的购物网站做数据挖掘和智能推荐,可以很好的预测那些游走于各个购物网站上面的用户行为。

时间和需求

有些需求是经常性的,有些则在一次被满足之后需要间隔很长时间才能需要下一次。特别是那些耐用消费品的需求,用户一次购买之后,很长一段时间都不会再次需要。没有人会每天购买彩电和冰箱,但是服装类需求的产生周期就会密集得多,女士们总会感觉衣柜中少一件衣服。还有些需求是随着时间而变化的,比如某个用户某买了一段奶粉,那么最多过六个月他应该需要二段奶粉。为什么说最多六个月呢?那是因为无法确认这个用户第一次购买奶粉就是在网络上进行的网购,并被数据挖掘工具捕捉到了。所以这种时候,时间只能起到比较模糊的作用。服装的季节性则可以在推荐的过程中起到更加清晰的作用。

社交数据

社交网络是近些年新兴起来的一种信息互动方式。在社交网络中,存在这大量的信息,这些信息按照不同的信息组织方式被推送到了那些订阅或消费者面前。这些信息如果被积累起来,那么就是一部不断由所有人参与的,通过现在正在做什么、正在想什么而构成的历史。当然,也有人认为这样的历史就是胡说八道。这些内容如果直接堆积的话,价值并不大,想要从中找到一些有价值的内容,就需要进行数据挖掘了。

对于社交内容进行数据挖掘,有时候会得到一些意想不到的有趣结果。比如独到科技就曾经对一条国内某知名互联网手机相关的微博进行过挖掘。这条微博被进行了大规模的转发,但是这些转发的账号中,存在着大量的水军和僵尸。以前很多人都怀疑这位做手机,要比肩乔布斯的中国互联网牛人拥有大量的水军,但是谁也没有拿出证据来。独到科技在针对这条微博进行分析的时候发现,里面有大量的账号,转发的时候都输入了同一段文字,这段文字还不是默认的“转发微博”。这些像机器人一样动作的账号,均匀的分部在全国各地,平时经常转发一些和互联网、手机等内容完全无关的东西,自己原创很少,原创内容也杂乱无章。最终,独到科技通过数据挖掘算法,将水军的比例计算了出来,数字还是很吓人的。

热不热

独到科技做的另外一个实验是通过计算一个地区发出的包含”热“的微博的数量的变化来判定一个地区当天的天气是不是很热。这个实验在那些喊热人数明显上升和下降的地区,还是比较准确的,但是,在那些喊热人数变化不明显的地区,就不是那么准确了。

从这个实验可以看出,微博是可以部分反映当地的某些环境状态的。但是通常只在环境状态发生了比较剧烈和极端变化的时候才能够很好的体现出这种变化。当发生极端事件时,微博就是一个放大器。

事后诸葛亮

还是上面那个热不热的例子,说明了数据挖掘的另外一个特性,那就是滞后性。数据挖掘可以去分析一个地区昨天是不是很热,但却无法判定明天那里是不是还会很热。也可以分析一条被很好传播的微博为什么,或者说是通过什么途径被很好的传播了。但是却无法预先判定一条还没发出的微博是否会被很好的传播。数据挖掘的结果可以帮助用户找到那些传播的关键点,但是这些点通常都是人,要如何说服这些人参与到一条新微博的传播中去,这个事情就不是数据挖掘能够完全解决的了。 

移动大数据的处理

从来也没有任何一个行业,像移动互联网那样依赖数据的支撑。在一个90%以上的现金流来自VC的行业,大家赚到的大多都不是现金,而仅仅是数据。在这个领域中,数据毋庸置疑具有更加强大的力量。移动设备也比任何传统方式搜集到的数据更丰富,更及时。我们随身携带的手机,除了能够记录我们在手机上的各种操作、点击之外,还能记录我们的地理位置,周边的网络情况,甚至是手机的运动状态。除此之外,手机还是我们随身的摄像和拍照、录音工具,大部分使用手机的用户还会将自己的通讯录、短信记录、通讯记录都留存在手机里面。移动设备,会随着用户移动,随时随地的记录用户身边的一切。

移动设备会带来巨大的数据,维度更多,数量更庞大,更精确,更细致、更及时。对这些数据进行挖掘和合理的运用,必将会产生更加巨大的利益。

移动广告的故事

Talking Data就是专门做移动设备数据挖掘的。他们可以在ITunes平台上帮助开发者统计各个推广和宣传渠道所带来的收益。

Talking Data给大家带来了一个故事,移动广告的故事。

在web上,广告算法可以根据用户当前正在浏览的内容,判定用户的喜好,然后向用户推荐广告,以便能够尽可能的提高广告的点击率。但是在移动终端上,由于用户使用的大是App,而这些App可供进行挖掘和分析的数据非常少,这就导致了广告算法很难根据App的相关信息向用户做出最优化的广告推荐。而且,由于移动终端的局限性,移动广告的展示效果、展示面积、展示时间和机会都要比web端差很多,移动广告也很难和App进行有效的整合。这些因素都导致了移动互联网的广告效果比web广告要差。

Talking Data有一次就接到一个订单,需要优化广告算法,帮助客户提高移动广告的点击率。他们建立数据模型之后,发现计算得到的结果很难达到客户的要求。在反复的推演之后,最终他们决定将用户进行了分类:一类用户会点击广告; 另一类则是永远也不会点击广告的。他们直接将比例巨大的那一部分永远也不会点击广告的用户数据去掉。将原来的,如何为所有用户推荐合适广告的命题,改换成了如何为那些曾经点击过广告的用户推荐最优的广告。数据量成几何级数下降,得到的结果运用到广告系统中之后,广告的点击率提高了30%到40%。

这个故事说明移动互联网带来的数据非常多,非常庞杂。但是如果想要得到理想的结果,就一定要选择正确的数据子集。

舆情监控和自然语言处理

红麦是做舆情监控的,他们会自己派遣大量的爬虫,到各个网站去爬去信息,然后分析是否有相关他们客户的舆情信息,这是一个自然语言处理的过程。目前已经基本可以依靠机器自动找到和某个客户相关的信息,判定的准确率非常的高,机器也能够判定这些信息是正面的或负面的,这个准确率虽然要低一些,但也能够超过80%,应该算是已经能够进行商业应用了。

舆情监控算是天朝维稳的一个重要工具了。在这么先进的算法帮助下,红麦的那些大型国企客户还是负面不断的传出,而且有些负面信息被广泛的传播,由此可见,像红麦这样的舆情监控公司对于这个社会的贡献还是十分巨大的,如果没有了他们,那么我们每天大概就看不到任何好消息了。

数据与安全

和数据有关的话题,其中最敏感的就是数据安全了。数据是属于用户的,在这些数据分析厂商对数据加以利用的时候,是不是得到了用户的授权。用户是否对于其自身的数据的各种用途都完全了解、理解和认同呢?在场的四家都表示,他们会主动的告知用户,告知用户的数据将被采集用在什么样的用途中,绝不会超越告知范围去使用用户的数据。

数据这个行业,是需要积累信用和信誉的。如果乱用用户的额数据,将会损害信用和信誉,如果一家数据公司的信誉不好,他们在这个圈子里面是混不下去的。 

总结

数据在我们身边无处不在。有越来越多的公司,正在这个巨大的市场中攫取财富。数据挖掘这个产业,拥有着巨大的市场前景。

 

下一次《IT龙门阵——技术专场》活动应该在9月25日,主题已经基本确定,嘉宾还在沟通之中。再往后的技术专场的活动主题还在征集之中,如果大家有什么建议和意见,欢迎和我们沟通交流。

Close Bitnami banner
Bitnami