注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

山歌

微信公众号:Jack-Xiaoshan

 
 
 
 
 

日志

 
 

如何结构化数据  

2009-10-25 13:26:00|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
cite:http://www.melonlab.com/data-scheme2 世界在数据车轮上运转向前,一切行业都不能逃脱出万一。然而,我们该如何获取期望中的数据呢?下面,我抛砖引玉的写出一点我的看法: 1.结构化数据: 何谓结构化数据?就是可以放入数据库表单中的数据。比如一个人的信息,有生日、职业、住址、收入等等,这些属性都被结构化,各个变量也被声明。这样的数据放入数据库中,每次查询非常方便。 那么,如何获取这类型的准确数据呢?我认为有两种比较可行的方法:  第一,用实用的信息来交换数据:为用户提供某些服务,而用户不必为此付任何的费用,而仅仅是填写一个表单,以此作为交换。这样,用户不会因为觉得自己信息是无偿奉献而填写一些虚假信息或者拒绝提供。当然,保证隐私安全是其根本。(获取信息后的使用方法,将在以后跟大家探讨。) 第二,利用信息黏性,分批逐次的获取结构化信息:就如同买洗发水时要先告诉服务人员自己发质一样。用户每次获取信息的同时,必然也会透露一部分信息。这种流程,窃妄言之为信息黏性,是由一个信息黏合另外一个相关信息,诚如前面说的“买洗发水”信息,黏合“个人发质”以及“预算”信息。 这两种方式如何在互联网上应用呢?我以为,不妨将信息搜集从注册过程向整个过程转变。即每个用户的信息非但在注册时,也可在使用过程中不断完善与更新。将这个过程拆散,可以使改善用户体验。如,在web2.0站点中,注册时仅用提供邮箱和注册密码(甚至连重复密码都可以省去,找回密码直接发至邮箱。如需避免恶意注册,可以验证,不过2.0时代,谁不希望用户多多呢?)。在用户使用过程中,如果希望给某人发信息或者点评某人的分享时,需要给自己起一个昵称,此时的昵称在确定后,写入数据库。希望搜索跟自己志趣相投之人,那么就要写出自己的兴趣。就像这样,把整个流程延长,利用信息的黏性和实用的信息来不断的促使用户奉献我们期望的数据,而这些数据则被结构化的写入数据库,供未来的数据分析之用。 现在我们来一起研究下非结构化数据的整合。 什么是非结构化数据? 像自然语言一样,没有固定的结构的数据。比如论坛的帖子,个人的介绍等等。 通常的处理方法是? 这些内容在任何一个网站中,都会或多或少涉及到,而通常的方法是将其分门别类的,如帖子内容为一类、个人介绍为一类来写入数据库。在应用时,再利用信息熵与一些统计学知识来进行利用。因此,这类数据在大多数情况下是通过用户主动贡献而获取的。 换个角度想 就像结构化数据获取一样,用户慷慨奉献是因为在贡献的本身,对其自己有一定的益处。非结构化数据在满足用户某些需求后(比如发帖评论等),若能再进一步,用一些简单的统计伎俩来发展的话,用户会更加倾向来奉献非结构化数据。应用哪些伎俩呢? 1.非结构数据的价值量:可以通过计算机标准化计算,作为一个测度。让用户快速得到反馈,比如发布一个帖子,其信息价值两通过信息熵得到一个评分。 2.与结构化数据相结合:对非结构化数据添加其他用户的打分或其他量化指标,让前述的“人工智能”变成“工人智能”。 这样操作的效果: 任何一个服务,都不能回避非结构化数据,而对于非结构化数据的应用在未来互联网的发展,更是起着巨大的作用。因此,只有获取到更多,或者说让用户无私奉献更多这样的信息,才能发挥数据的魔力,为用户更好的改善体验。 结合结构化与非结构化数据,举一个例子来应用: 比如要做一个威客,每个项目的投标门槛非常低,只要注册就可以。这就让项目的发布商难以选择。然而如果该威客若能依托一个维基系统,每个注册用户在该维基系统上的贡献程度(非结构化数据)、其他人的评分(结构化)、贡献的频率与类别(结构化)等信息能够从一定角度上反映出用户在某些方面的精通程度。依此来帮助项目投放者选择投标者。与此同时维基系统的内容必然也会极大的丰富。可谓两全其美。 数据搜集之后,准确的是说有目的搜集之后,如何改善用户之体验,并获得经济效益呢?下周的文章中,会有一些探讨。
  评论这张
 
阅读(12)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017