GRDDLの手引き

矢倉 眞隆

Webにある「データ」の問題

Webからはデータを取り出せない。

  1. HTMLによるマーク付けではデータを「データ」と判断できない。
    • 語彙がない、または貧弱
    • データがコンテキストに散在し、マークアップしづらい
  2. XMLによりデータは構造化されるが、組み合わせられない。
    • 各文書定義により要素や属性の名前が異なり、共有しにくい
    • 似たような役割でも、内容モデルが異なる
      <foo:person>矢倉 眞隆</foo:person>
      <bar:person>
        <bar:name>矢倉 眞隆</bar:name>
      </bar:person>

データは何らかの形で存在するが、有効活用できていない。

GRDDL — データをXML, XHTMLから取り出すための仕組み

RDF — データ交換のための枠組み

GRDDLの導入方法

GRDDLは利用したいXML文書に「プロファイル」と「変換方法」を適用し、変換を行う

プロファイルにてXSLTへの紐付けを行い、プロファイル参照のみで行う方法もある。

GRDDL対応フォーマット

microformatsからRDFを取り出す

GRDDLの課題

  1. XMLを対象としているので、HTMLなどnon-XMLな言語に対応できない
    • DOMによる変換などが出てくる?
    • 整形式ではないXHTMLは非常に多い
  2. 「余計」なマークアップが増える
    • 特に文章内容をマークアップしなければならないため、その分コストがかかる
    • 「シンプルに」書きたい人は「美しくない」とつっぱねる
  3. メタデータを取って「で、どうするの?」
    • メタデータの恩恵を実感しにくい、取り出すことの意義がみえない
    • いくつかのデータを組み合わせる例は存在するのか?
    • データソースが広がればもっと面白みが増すが、広がるには時間がかかる

これからのWeb

HTML層であれば、ユーザースクリプトなどにより第三者がデータを操作できる。

Webへのユーザーの「介入」が2.0、ユーザーによるWebの「改変」はこれから。

References

Gleaning Resource Descriptions from Dialects of Languages (GRDDL)
GRDDLの仕様書。解説としてGRDDL Primerもある。
microformats Wiki
各フォーマットの仕様が書かれているWiki。策定中のフォーマットも含む。
hCalendar
iCalendarをHTMLで表現するhCalendarの仕様書。
Operator
microformatsをブラウザで機能させるFirefox拡張機能。
Upcoming
イベント情報を共有するWebサイト。hCalendarに対応している。
W3C GRDDL Service
W3Cによる、GRDDL対応ページからRDFを抽出するサービス。