2007-10-23

结构化信息与非结构化信息

Anant Jhingran提到:无论在需求上还是在技术上,非结构化信息处理平行于结构化信息处理:

Structured Information typically goes through the following steps:

Collect (through ETL), Centralize and Repurpose (through Warehousing/Marting), and then, basic Finding (through SQL and Reporting), Drilling (through OLAP) and Discovery (through data mining).

Unstructured information has parallels to the information flow above:

Collect (through crawling), Centralize and Repurpose (through Content Management Systems), and then, basic Finding (through search), Drilling (through navigation and multi-faceted search) and Discovery (through text analytics).


非结构信息来自与我们对结构信息的理解和需求,对信息进行结构化,这种设计来自于我们习惯从上而下的设计思维,这个过程有些不自然,如果我们发现这一过程是错误的,错在哪?影响范围多大?

概念依然很是笼统:

信息结构是相对信息处理逻辑而言,非信息本身。换句话说,任何信息处理的前提是处理对象的结构是已知的,即清楚地知道所要处理信息的结构,否则信息是无法被检索的,这也无法谈及处理问题。

因此,需要继续理顺这三者的关系:
  • 信息(Information),
  • 信息结构(Structure),
  • 处理逻辑(Theory)。


无论如何,我们或许需要一个新的起点。

没有评论: