May 18th, 2004

vanity

[ L ] Clara — трёхмерный браузер

It lets you walk/fly/jump through a three-dimensional world where all the objects are painted with usable, interactive web-pages. It's not some statistics or fuzzy prerecorded images, you can read the pages just as you would in 2D.

Приятные вещи, которые получаются из трёхмерной инфраструктуры — это, например, пространственная схема распределения страниц по времени и „принадлежности“, развёрнутая история сеанса веб-сёрфинга. И, как водится, инфраструктура для совместного и социализированного сёрфинга, с возможностью чата и прочими приманками для обычных людей.

Внутри всё это вертится на подточенном VRML-движе blaxxun, и следствием этого в теории являются широкие возможности для достройки и расширения пространства под свои нужды — как на уровне интерфейсном (например, забросить несколько узлов в пространство для вечного сопровождения пользователя и имитации панели закладок), так и на контентном — вплоть до создания трёхмерных систем, которые будут интегрировать в себя страницы и организовывать их в пространстве, расширяя визуализационные метафоры.

Сейчас уже можно придумать перенос NewsMap на подобную платформу, возможно и другие, уже существующие во флэше решения. Если, конечно, раньше Макромедиа не подсуетится и не выпустит уже надёжную и функциональную трёхмерную среду, подобную флэшу. Судя по эволюции Shockwave, это вряд ли произойдёт в ближайшее время, а Adobe Atmosphere, несмотря на былую перспективность, развивается недостаточно динамично и остаётся нишевым решением для виртуальных декораций, а не для трёхмерных миров.

Как говорил mrparker, VRML, пришедший раньше своего времени, на моделях даже не очень выокой сложности и детализации был слишком сложен для потребительских машин, но мощности компьютеров растут непрерывно и уверенно, так что ресурсоёмкий VRML всерьёз имеет хороший шанс на то, чтобы остаться не просто лучшим, но единственным трёхмерным решением, за счёт своей стандартизированности и зрелости.

  • Current Music
    There is a number of small things — Mъm
vanity

[ utx ] Маркеры как узлы и маркеры как вектора

Последнюю неделю меня занимает очень многословная и (в нехорошем смысле) гуманитарная статья о прототипе машины Юма-Кондильяка. Машина эта представляет собой примитивный анализатор ассоциативных сетей, единственной задачей которого является разбор связей элементов в сети для того, чтобы автоматически выявлять закономерности и решать связанные с этим задачи, в число которых входит и автоматическая „bottom-up“ категоризация/предметизациция, и семантический поиск умолчаний и белых пятен вместе со вскрытием неявных связей. Всё это без анализаторов смысла, без словарей, правил и прочих „top-down“ средств, только за счёт ресурсов в самой сети.

Несмотря на недостатки, текст мне очень нравится, так как блоги и журналы — это и есть уверенно набирающая в объёме сеть объектов, использование которых пока затруднено, ибо средств подходящих для поиска и выбора нужных элементов, почти нет. Пока что у меня есть лишь тахо и LJS. При этом тахо не даёт ничего, кроме простых списков записей по категориям, или более сложных списков, если я вдруг догадываюсь, как построить запрос к БД, а LJS даёт поиск только по словам, что требует нескольких тестовых заходов с испытанием нескольких разных ключевых слов, которые могут быть в интересующих меня записях. Если же никакие слова тебе в голову не приходят, или это не те слова — ты в пролёте, дорогой.

Соответственно, впервые планируя тахо, я хотел создать связанную кросс-журнальную базу записей, которая как раз и смогла бы показать мне кластеры/скопления записей по определённым темам у разных пользователей, чтобы превратить процесс изучения чего бы то ни было (события, темы, предмета) в просмотр объективного набора (объективен он из-за сосуществования разных точек зрения) записей-отзывов. Если же такие раскопки ведутся в режиме самоархеологии, то можно увидеть события, которые с тобой происходили в разных разрезах, и меня больше всего интересовали как раз упущенные мной при маркировании/категоризации события, которые, тем не менее, принадлежат к некому множеству.

Основная идея текста о машине Юма-Кондильяка (дальше — „юмико“) заключается в том, каждое предложение заменяется сетью слов, в нём содержащихся, после чего общая сеть слов формируется из сетей-предложений.

Это хорошо выглядит в английском языке и, наверное, в французском, но на русском без стемминга точно не обойтись.

Дальше начинается, собственно, занимающий меня вопрос.

Сейчас практически все, кто использует систему, делают это по заданному мной примеру — у тебя есть смысловой узел, ты в него ставишь маркер, после чего на твоей карте появляется новая точка в нужной смысловой области. Если у тебя в записи несколько маркеров, соответственно, точка появляется в нескольких смысловых областях, и ты, теоретически, можешь через эту точку, как ниткой, „стянуть“ смысловые области вместе, создавая контекст. Это интереснее, так как мы стремимся передавать и фиксировать именно контексты.

Отличие прототипа тахо от прототипа юмико в том, что мы не оперируем словами. У нас каждая запись-сеть сворачивается в один маркер-тематику, и мы анализируем уже не сеть слов, а сеть записей-предложений. Это, с одной стороны, намного более простой, с другой — отвратительно редукционистский подход к тексту. Потому что как быть, и что делать, если запись промаркирована лишь одним маркером? Ведь если в нашем тексте написано что-то ещё, то без маркера мы никогда об этом не узнаем. Вот тут-то всё и закручивается.

В обычной записи может быть несколько независимых тем и обсуждений. У меня случаются лирические отступления, что-то я лишь упоминаю — тогда „это может быть полезно для статистики, но запись не об этом“, поэтому напрямую брать и анализировать связи маркеров не стоит — много шума появится.

Самое очевидное решение — повысить количество и детализацию маркеров в записях до того уровня, что они будут охватывать текст целиком, не упуская ни грамма смысла. И оно совершенно нереально — на придумывание маркера и так часто уходит масса времени, а если придётся увеличить эту нагрузку, то даже при активной системе анализа синонимии маркеров возни станет на порядок больше.

Второй вариант — это каким-то образом превратить маркеры-узлы в маркеры-вектора, которые будут не просто фиксировать тему, но связывать её с какими-то другими, упоминающимися в тексте или внешними. На уровне идеи это звучит интересно, но как только доходит до создания схемы, видна неправильность решения — вместо одного маркера придётся создавать десяток. Значит, вектора должны создаваться самой системой.

Вариант третий: выделять логические блоки, к которым относится маркер, чтобы несколько маркеров в одной записи могли быть или связаны между собой, или не связаны. По сути, мы возвращаемся к идее скопов (scope), которые реализованы в одной печально радостно известной системе управления контентом. И, соответственно, анализ должен будет работать не на уровне отдельных записей, а на уровне логических блоков.

Сложность пока одна — каким образом организовать URI-схему, чтобы и подобное логическое разделение в неё встроить, и не поломать существующий механизм. Хотя... Да, наверное, можно сделать так: мы указываем при создании маркера произвольное имя логического блока, который и будет атомом данных в системе, а адресация будет идти по схеме /user/id_записи/id_логического_блока.



  • Current Music
    True [The Faggot is You] - Mor — Deep Dish
souloveme?

[ utx ] Обратная сторона полосатых картинок

Замечали ли вы, что некоторые маркеры ставить в журнал просто не хочется, потому что твои, не менее сообразительные, пытливые и любопытные читатели обязательно поймут, о чём ты пишешь, даже тогда, когда это совершенно не нужно. Некоторые вещи необходимо держать под покровами. Кому-то не нужно говорить, что ты пишешь о нём, какие-то детали не стоит акцентировать невольно.

И архивы записей, разобранные по категориям — дело крайне интимное, как и архивы вообще, в том числе с LJS. Человеку кажется, что за всё, что ушло в архивы, можно быть совершенно спокойным — если его не заметят в лентах, его с большой вероятностью не заметят никогда. Забывает этот человек лишь об одном — если кому-то нужно, он влезет вглубь, и найдёт всё, что ищет, и часто найденное оказывается крайне смущающего характера.

Казавшиеся вчера неисчислимыми, проиндексированные мегабайты сегодня сжимаются до размеров небольшой поисковой формы или набора категорий. У меня вот ещё есть некоторая личная иллюзия того, что девять сотен категорий — слишком агрессивный архив, чтобы в нём с наскоку разобраться. И отдельные неоднозначные категории в нём всё сложнее найти, можно лишь наткнуться на них случайно, либо точно знать, что ищешь.

Как только появятся тематические кластеры, организация станет, с одной стороны, проще (я смогу „стереть“ значительность тех или иных категорий размещением их в каком-то не самом значащем кластере), а с другой то, что мне было и так очевидно, а для других могло быть загадкой, после введения в записи структуры станет очевидным для всех. Кроме того, можно говорить о проекции ментальной модели на всю ютх-базу моих записей, со всеми увлекательными последствиями.


  • Current Music
    thomas newman - walk home
vanity

Первая реализация машины Юмико для ИАМС

Математический гений урбана, его же необъятный интеллект и наши скромные познания в области языка программирования java и индексной машины Lucene позволили нам добиться невероятных результатов в области кластеризации, категоризации, индексирования, поиска, Data Mining, Information Extraction, Knowledge Mapping, Automated Intoxication и т.п. и т.д.

Если действительно заработает на скопах, значит, социальную систему организации документов, функционирующую в автоматическом режиме, можно считать законченной — её достаточно будет натравить на нужный факт, тему или набор тем, как она тут же подтащит нужный контекст, очевидный и неочевидный. Задача журналиста-оператора будет переварить это всё, и вместо того, чтобы лопатить материал самому, он уже будет, как и всякий порядочный и умный автор, выбирать не просто очевидные тренды, а мета-тренды. И о них писать для своего читателя.

* * *

Что важнее в данном случае — это как одна единственная примитивная мысль позволяет значительно изменить взгляд на какую-то проблему, на большой монолит, к которому раньше не знал, как подступиться. Вики вот. Blosxom тот же. Small is good, быстрое, за несколько часов развёрнутое решение-прототип позволяет проверить и воплотить часто совершенно дикие и волшебные чудеса.

А больше всего меня удивляет то, что существует столько умных решений, такое огромное количество людей заканчивает всевозможные продвинутые мехматы и физтехи, эти люди получают дипломы по космической сложности финансово-экономическо-вычислительно-лингвистическим темам, а заниматься информационной архитектурой и прикручивать под шаманский бубен разные формулы к текстам приходится нам, как наиболее универсальным видам.

...Хоть бы нам удалось заставить эту штуку правильно организовывать скопы, что ли. Сразу счастье от ИАМС будет в кармане.

humeco
pattern_recognition

  • Current Music
    EM Sunday 12th July 2:00 - 4:00am — Deep Dish