:: urbansheep (urbansheep) wrote,
:: urbansheep
urbansheep

  • Music:

Из жизни блокнота: категории, ключевые слова и фасеты

Добрые четыре часа сегодня я размышляла над тем, какие отличия характерны для категорий и ключевых слов, как они соотносятся с фасетами и в чём преимущества каждого из этих инструментов формирования метаданных. Больше всего меня, раскапывающую блокнот вглубь, беспокоило две вещи:

  • Если использовать категории в общем смысле, то контексты теряются, а искать по индексу, состоящему из списка категорий и ссылок на страницы, невозможно (это можно было отлично усмотреть в utx того времени, когда заголовки записей в нём ещё не вытаскивались) — только если просматривать все записи без исключения по нужным категориям.

  • Если использовать более точное деление по ключевым словам (КС), упомнить все становится невозможно (особенно на протяжении недель и месяцев — называть одно и то же десятками имён для нас совершенно привычное дело). Ключевых слов становится слишком много.

    Промежуточное решение — постепенно объединять КС в кластеры по темам, а кластеры тем переплетать между собой для составления карты.

Фасетный подход нас тоже не устраивает, так как разделить вольный текст по определённым критериям очень сложно, почти невозможно — формальных признаков, которые подходят для классификации объектов, нет у текучих кусков текста. Для себя я вообще в итоге составила следующее определение фасет, категорий и ключеслов.

  • Самый общий уровень, на котором мы можем разделить записи, являются именно фасеты — несколько признаков, которые могут выражаться по-разному (например, цвет, настроение, время дня, серьёзность и так далее. Нечто, что можно впихнуть в общий список). Это — своеобразные надкатегории.
  • Самый низкий и частный уровень — ключеслова, которые определяют и характеризуют каждый конкретный объект, его нюансы и отношения, максимально частные грани этого объекта фиксируются ключевыми словами, которые могут происходить как из самого объекта (emergent, ad-hoc keyword generation), так и вкладываться в уже созданные вокабуляры. И, как только мы говорим „вокабуляры“, можно переходить к третьему пункту.
  • Средний уровень, со своими плюсами и недостатками, является компромиссом между фасетами (не всегда достаточно гибкими для нас) и ключесловами (заваливающими нас собой). Это как раз категории, которые можно считать обобщёнными ключевыми словами, обозначающих тот или иной кластер подтем и понятий.

Чем ниже по уровню — тем более гибок и более трудозатратен инструмент при работе с данными на больших объёмах. Пройти по фасетному каталогу гораздо проще, чем по категоризированному (не дай бог ещё и со своими иерархиями) каталогу. А категоризированный, в свою очередь, несравнимо проще, чем индекс по ключевым словам.

Вопрос простой — что выбрать и как работать с тем, что уже собрано.

[01] [02]



Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments