この記事では、メリアム・ウェブスター辞典の作成プロセスと非構造データプロジェクトの成功の共通点について考察しています。著者のコリー・スタンパーは、現在の雑誌やブログから新しい単語や使用方法を収集する「読書とマーク」プロセスを紹介し、辞書作成における非自明な作業の難しさを述べています。また、大量の構造化データを用いた言語コーパスの重要性にも触れています。データの構造化には、多数の編集者が関与し、単語の定義を手作業で確認・修正する過程が大変重要ですが、テクノロジーの高度化とは無関係に価値が生まれます。さらに、語源や発音などの付随データが提供されることで、ユーザーにとっての真のデータ価値が生まれることも示されており、これにより成功するデータプロジェクトのレシピが提示されています。