【semantic】瘦语义网的几点想法

转载

mb5fcdf35dba419 2013-05-03 20:16:00

这一年多来在工业界的实践，我总结经验和教训为“瘦语义网”(Lean Semantic Web)。

顾名思义，这个说法是从“Lean Startup”（精益创业）引申出来的，或者说是Lean Startup在Semantic Web上的应用。所以Lean Semantic Web最合适的翻译还是“精益语义网”。不过“瘦”听起来简单点，就先这么叫吧。

是今后系统总结这个概念的地方。现在还没有什么内容，等以后自由时间多了再去填坑吧。

这里只能简单的总结几点原则问题。

瘦的意思并不只是更简单、简化现有的语义网技术。它的核心思想是Making things people want，也就是为人民服务。

人民不仅包括用户，也包括为用户服务的工程师们。语义技术不是万灵药，不是人工智能的什么突破，也不是从天上掉下来的。好的市场和技术都是演化出来的，很少是突然的革命。如何让开发和使用这个技术最符合工程师和用户的需要，如何从现实基础演化，是语义网的最关键问题。

由此引申一些想法。

首先是用户和市场的一些想法

a. 目前结构化数据，特别是高质量图结构的数据已经成为提升用户体验的核心问题

b. 智能技术在过去的成功主要是做加法（提供给用户更多的内容，如推荐和广告）。语义网的优势在做减法。

c. 在语义网上实现突破的必然是小公司（The Next Big Thing）。现有的大公司很难服务好早期核心用户。

d. 语义技术的突破点看似不会在继续深化社交网络(social network)这种关系上，虽然这个还很热。信息网络(information network)是个高质量数据更丰富的世界。

e. 语义数据到目前为止还都是小数据。市场潜力最大的是小而高质量数据的集合。不要迷失在大数据的各种buzz和hype里。

其次是技术上的一些想法

1. 语义就是关系，知识是用来发现新关系的数据。语义数据的核心问题是数据质量。知识是数据中质量较高的部分。

2. 实践中的语义网是NonRDF: Not-only RDF。不要拘泥于RDF这种交换格式和它的种种变化(如RDFa, Microformat)

3. 目前阶段最有工程基础的语义数据交换格式是JSON。数据交换格式和数据存储格式可以分离。

4. URI做资源寻址方式是昂贵和不符合用户需要的。字符串在大多数情况满足大多数用户的需要。

5. 凡是不能做到（用户感知到的）常数时间响应的系统都是胡扯

6. 语义网技术并不是单一的数据交换格式和查询。完整的应用系统，几乎都要包括自然语言处理，信息检索，结构化数据存储，结构化数据查询，数据质量的提升，隐含关系的发现（机器学习或推理），探索或启发式用户界面等模块的集成。

7. 现阶段能规模化的语义关系很浅，只有同义关系、分类树关系、传递关系(transitive property)，至多加上路径查询(path query)。这是数据库和信息检索的基础设施决定的。先规模化这些关系，循序渐进才能处理更多的关系

8. 弱耦合的系统构架。尽可能重用现有成熟技术。尽可能利用好云计算基础设施

现有的学院派语义网研究很少满足这个要求。LarKC也和工业界要求差距很远。
强耦合的，Cluster的模式，如YarcData的uRiKA，适用于大企业市场，也就是SEMANTIC web市场，而不是更广阔的semantic WEB市场
多层次模块化（hierarchical modularization ）

9. 懒(lazy)系统. Just-in-time knowledge, just-in-time computation, pay-as-you-go benefit，减少初始投资要求