智慧的分类
第一种是由用户提供的显式信息。第二种是隐式信息,这些信息是应用内或应用外的信息,这些通常是非结构化格式的信息。最后的是由分析集合数据所推导出的智慧。第三种是建立在第一种和第二种之上的。
数据两种格式:结构化数据和非结构化数据。结构化数据有个很好的格式,十分方便存储和查询。用户的评级,文章的查看,购买的物品都是结构化数据。非结构化数据格式往往是未处理的文本。评测,论坛发帖,博客的记录,会话都是无结构数据。
接下来让我们看看智慧的三种形式,显性,隐性,推导的。
显性智慧
这一节将介绍处理用户提供的显性信息。下面是几个怎样利用显性信息的例子。
- 评测和推荐:在同一组中,一个人的推荐的东西对其他人可产生巨大的影响。此外,一个有经验的用户对商家或服务进行评测或评论,其他用户也会关心这个题目,特别是在都对这个商品或服务感兴趣的情形下,对用户产生更大的影响。
- 标签:让用户用标签对文章,图片,视频等等进行分类,可以从中获取大量有用的信息。标签可以由专业的编辑连创建或者分析内容由算法生成。这些标签用来对数据进行分类,收藏站点,与其他人建立连接,帮助用户改善搜索,创建动态的导航。
- 投票:投票是另一个从用户获取有用数据的方法。Digg网站允许用户发表和对有兴趣的文章进行投票。投票的多少决定了文章的排名。这是一个好的方法去发现好的文章。
隐式智慧
这一节介绍处理用户提供的间接的信息。下面是几个用户提供这些信息的方式。
一般这些信息都出现在非结构数据里,如评测,消息,博客等等。用户可以在网上表达自己的想法。可以在你的应用里,也可以在应用外。在社区里用户可以发表博客,提出解答问题。感谢强大的搜索引擎和博客跟踪引擎。这些应用都可以帮助其他人发现这些内容。
你可能想用外部网站的数据去扩展自己的应用。举个例子,如果你做的是房地产的应用,你可能想用外部的数据来扩展自己的应用。如公开的房屋出售的信息,学校的评论,邻居的信息等等。
博客在网上一般是按时间排序的。博客圈是一些博客的集合,而且在随时的增长之中。在2008的8月,Technorati,一个致力于博客跟踪应用的公司,大概跟踪了上亿的博客了。博客圈对应用来说是个重要的数据源。
接下来看看第三种,是由分析数据推导而成的。
衍生的智慧
这一节介绍处理推导数据,这数据是分析从用户收集而来的数据而衍生出来的。 下面是一些例子
- 数据和文本挖掘:在大量的数据中用算法去寻找模式和趋势的一个过程被通常认为是数据挖掘。当数据在一定的格式文本中,这个挖掘的过程就叫做文本数据挖掘。另一个和这个相关的领域是信息检索。是通过分析文档中的内容,寻找相关的信息。大部分内容都是富文本的,这些内容被搜索引擎索引,以及可以用在推荐引擎中,把相关内容推荐给用户。
- 聚集和预测分析:聚集和预测分析是数据挖掘两个主要的组件。聚集技术可以让你分类物品如用户或内容,把他们分组。预测分析是个数学模型。是基于输入的数据进行预测。
- 智能搜索:为了获取内容,搜索是比较常见的技术,在以后会推荐java的搜索引擎,lucene.我们将看到怎样利用信息来优化搜索结果。
- 推荐引擎:一个推荐引擎为用户提供相关的信息。通过分析内容,分析用户交互行为或者把这两个结合起来的方法来创建推荐引擎。推荐引擎利用用户输入提供一个推荐物品的列表。输入到推荐引擎可能是在用户的购物车里的物品,可能是以前她所购买的物品,或者是要考虑购买的物品,或者是用户资料如年龄,标签或用户查看的文章,或者是来自用户提供其他有用的信息。对于大的购物站点如亚马逊,一个目录里有上百万的物品,提供一个快速的推荐是个很大的挑战。