Category: образование

Category was added automatically. Read all entries about "образование".

vanity

[ Q ] Значение фундаментального образования // Моби Франке из Valve

«

Каково значение визуального стиля? Увидев скриншот или фрагмент какого-то персонажа, я безошибочно узнаю Team Fortress 2. Сложно сказать то же о многих других шутерах — игры в фантастическом или военном антураже часто похожи друг на друга.

Стиль является основополагающим. Когда мы сохраняем скриншот, он должен сообщать тысячу разных вещей. Игры по второй мировой все гонятся за одним и тем же ощущением, и потому становятся похожи. В случае с Team Fortress 2 скриншоты выглядят скорее как иллюстрации. Они более многослойны, здесь есть передний и средний планы, есть фон. Благодаря характерной анимации, здесь есть интересные позы, а тщательная проработка персонажей создаёт интересные силуэты.

...

Вы считаете, что не хватает игр, которые бы обладали индивидуальным стилем, собственным обликом?

Конечно, и для игры крайны важно выделяться. Я иллюстратор по образованию, с классической подготовкой, и я постоянно обращаюсь к примерам из прошлого. Когда художники копируют друг друга и создают похожие работы, это бессмысленно. Классические иллюстраторы все обладали своим собственным языком, редактора и рекламодатели выбирали иллюстратора исходя из его личного стиля и подачи. Игровое оформление должно строиться также.

Когда вы говорили о творческом влиянии на Team Fortress 2, я обратил внимание, что вы ни разу не упомянули ни одной видеоигры.

В других видеоиграх неоткуда черпать вдохновение.

To Be Franke: GamesIndustry.biz recently sat down for a brief chat with Team Fortress 2's lead visual designer Moby Franke at GDC Lyon, to discuss the distinctive style of the game, using art as communication and why videogames just aren't artistically inspirational.

»

Парень жжёт нереально. «Если вас нанимают за ваше знание фотошопа — это деньги, выброшенные на ветер». И, собственно, по этой самой причине студия Лебедева всячески старается своих дизайнеров и иллюстраторов натаскивать и образовывать в классическом рисунке, отношениях между светом, тенью, анатомией, объёмом и прочей окружающей реальностью.

 
 

  • Current Music
    Astrud Gilberto - it's a lovely day today
whougonnafool?

Галеры для будущих фоторедакторов

В жизни любого «закупщика» должны быть сотни ошибок и десятки тысяч единиц, пропущенных через себя, пока этот «фильтр правильного» настраивается, оттачивается, приобретает нужную гибкость.

* * *

Когда мне нужно будет воспитать фоторедакторов, я институтскому потоку дам простое творческое задание — за неделю придумать тему для сообщества, которое им было бы интересно вести, и в котором было бы достаточно много материала, создать это сообщество и модерировать его в хвост и в гриву в течение учебного года.

Тема должна быть достаточно общей, жёстко описанные формальные признаки («скамейки», «зубцы», «лошади») допустимы, но не поощряются, для этого будет отдельный проект в середине года. Ежемесячно по итогам жизни готовится одностраничный отчёт по тому, как всё было, и где ошиблись. Грамотно описанные ошибки поощряются. Студенты могут объединяться в группы (и это тоже поощряется), тогда будет интересно узнать, как распределяются роли (и отдельный технический балл, если список ролей удалось расписать, а сами роли кем-то раздаются или найден принцип их удобной ротации между участниками).

Решаемые задачи:

  • бизнес-планирование, т.е. научить каждого понимать, где начинается сегмент уже слишком узкий, в котором не возникает «движуха» из-за банальной нехватки кадров, а где наоборот — массовость убивает качество;
  • выработанное видение форматов — когда за счёт сотен удалённых и добавленных фотографий человек приобретает навык на лету в голове отсортировывать то или иное фото в нужную корзину;
  • спокойное отношение к ошибкам — неправильно и не по делу удалённые фото будут всегда, это издержки нечётких тем; всегда чьи-то вкусы не совпадут со вкусами того, кто здесь и сейчас выполняет роль модератора.

К концу года живущее сообщество и его фото-архив с историей ошибок засчитывается за курсовую работу. Каждое сообщество оценивается по трём критериям: массовость (количество участников), активность (среднее количество фотографий на каждого участника), отчётность (качество документации и повествования о достижениях и ошибках), из них субъективный лишь последний, про отчётность. Создатели-ведущие сообществ-победителей рейтинга получают в придачу к диплому почётный артефакт.

Превращение фотоархивов сообществ в выставки и активный выход в офлайн — то, чему мы помогаем только организационно. Выставки — это не обязательно стены. Могут быть весьма карманные вещицы, и всё, вдохновлённое темой.

После чего мы добавляем туда аукцион, ставки на результат по итогам каждого семестра и на победителей. Участие открыто для всех, кто связан с нашим учебным заведением, и превращаем это всё в балаган. Никакого поощрения за подобные проекты в «академических баллах» не делаем, специально для того, чтобы их запуск и реализация были ценны сами по себе.

Отходим в сторону, смотрим. Аккуратно помогаем советом тем, кто активно копает и просит знаний. Потом тех, кто нам нравится, выцепляем и приглашаем на работу (или помогаем им самим создать себе работу).

* * *

После удаления почти полусотни средних и слабых фотографий в бесконечной ленте FlickRussian за один раз, это всё видится довольно чётко. Модераторов, кажется, спасает от линчевания только то, что критерий «у нас нет критерия, кроме мнения модераторов» однажды оговорен, и к нему можно обращаться снова и снова.

С другой стороны, помогает избежать споров и то, что люди ничего не теряют, если фото из группы выпадает, многие и не замечают этого. Иными словами, если бы за участие фотографии что-то причиталось, то и битва развернулась бы моментально. Хотя можно предложить авторам-создателям фликрашн такую идею, и посмотреть, что они про неё станут думать. И станут ли.

А, да, ещё можно добавить reciprocation incentive («оставьте хотя бы пару комментариев к тем фотографиям в ленте сообщества, которые вам сейчас нравятся»), тогда, может, станет ещё пободрее.

 
 
 

  • Current Music
    dj krush - toki no tabiji
vanity

Идиотизм толпы // Без редактора даже любопытные тексты остаются посредственным набором слов

На Хабре хорошо видно главное слабое место «толпогенератора»: из-за того, что тексты создаются конкретными авторами, а не проходят стандартную цепочку «автор — редактор — корректор — верстальщик» (или «автор — контент-менеджер» в современных бюджетных электро-СМИ), они не проходят чистку и корректировку. Это отлично, когда в авторах у тебя несколько высококлассных журналистов, или просто грамотных и знающих людей (как изначально заявлялось на новой Вебпланете), но когда это «обычные люди», то всё становится тоскливо.

Сначала я это заметил на kuro5hin, где технология примерно та же — члены сообщества пишут статьи, после чего сообщество их или выводит на первую страницу, или загоняет в минус. Там регулярно шли обсуждения о том, «как нам реорганизовать рабкрин», чтобы повысить среднее качество статьи, но каких-то разумных решений так и не выросло. (Впрочем, статьи из раздела Мета на Курошине очень интересно читать в любом случае)

Другой классический пример — Слэшдот, где все ошибки и опечатки проходят через редакцию, и в самых вопиющих случаях исправляются. Правда, в большинстве случаев пост на слэшдоте — это короткий текст с ссылками, обычно большую его часть составляет цитата. Сделать в нём много ошибок сложно. На Хабре же тексты пишутся и публикуются участниками, что позволяет наглядно проследить средний уровень грамотности в растущем сообществе, а с ним — и понимание базовых правил оформления текстов.

Сегодня чтение очередного перевода с оборотами вроде «драматично уменьшили стоимость» и пр. почти сподвигло меня задать вопрос «Не ввести ли на Хабре практику peer-review, когда хотя бы один из волонтёров-редакторов должен знать русский язык?» После нескольких минут размышления на эту тему, а заодно после прочтения нескольких статей из числа последних на Вебпланете, где от редакторского контроля пошли также в сторону прямого выхода текстов на сайт, стало ясно, что идея не найдёт поддержки.

В состав UGC-сайтов (где контент создаётся пользователями) не входят корректоры, институт редакторов там обычно вообще не предусмотрен. Но неизменно понижающийся средний уровень качества и оформления текстов влияет и на авторитет сообщества. Что лучше сделать?

На данном этапе — видимо, подключать к системе не только комментарии (которые видны всем и не поддаются удалению), но и что-то, похожее на систему Орфус. Она позволяет не только сообщить об ошибке, но и показать её в контексте. А если реализовать это на сайте сообщества и рассказать о системе участникам, то можно получить неплохую статистику по тому, как изменяется количество исправлений — и для отдельных авторов, и для сайта в целом.

Впрочем, это не поможет статьям, которые нужно переписывать начисто или целым темам, которые больше похожи на безумие маркетолога или аморфное техноакынство в мире псевдотехнологов (не в обиду авторам будет сказано). Такие вещи — это почти идеальный пример пустой словесной массы, разбавленной идеями и фактами, которые, увы, редко связаны друг с другом во что-то полезное. Вопрос «и что дальше?» остаётся неотвеченным. Тоже метка уровня качества, понятности текста и понимания авторами темы, в каком-то смысле. Здесь не поможет никакой корректор, это уже вопрос к грамотным редакторам. Привет, устаревшие модели паблишинга, мы к вам ещё вернёмся.

 
 
 
 
 
 

souloveme?

Came vs. went

Сегодня на английском преподаватель в очередной раз по привычке исправила начало моей фразы When I came home на When I went home. И началось... В обычное время я бы, скорее всего, на автомате поправился и продолжил говорить дальше, но когда у тебя начался новый курс ноотропов и в голове твоей течёт сразу три-четыре версии развития событий, ты ловишь мелкие детали, и сегодня, посмотрев на разницу между Went home/came home, я вылетел из потока и начал задавать вопросы.

Разница между went и came состоит в том, что это разные состояния. По-русски они выражены в совершенности/несовершённости глаголов (пошёл/пришёл), по-английски они отличаются самими словами. В общем, обсуждали-обсуждали, в результате преподаватель более-менее поняла идею, стоящую за ошибкой, и задала встречный вопрос — раз уж это такая распространённая и постоянная ошибка, то откуда она идёт: из прямого перевода (когда в первый момент кажется, что слова зеркально переводятся, а на практике в отдельных случаях начинаются исключения) или из грамматики на процессе обучения (то есть какие-то исключения недодаются и недорассказываются). Вопрос поставил меня в тупик и я предположил, что это скорее именно „неозвученное исключение“ (так, скажем, формы неправильных глаголов вбиваются обучением намертво).

В ходе дальнейшего разговора удалось уточнить, что come не используется, когда речь идёт о каком-то другом месте, не в том, где ты сейчас находишься. То есть, находясь в пункте А, можно сказать When I came here/When I came to A. Но нельзя сказать When I came to B..., но только When I went to B. Отлично! — говорю я. А как тогда выделить это значение „прибытия“ в другое место?

Дело в том, что в сознании время делится на эпизоды, и начинаются они обычно с какого-то нового состояния. Таким образом, ты покидаешь пункт А, находишься в некотором состоянии перемещения, и прибываешь в пункт Б. Вот went to B — это отъезд в направлении, плюс само перемещение.

Came somewhere — это прибытие. Начало отсчёта нового фрейма. Поэтому русская фраза „когда я приехал домой“ естественно переводится в „when I came home“.

Говорили-говорили, и начали пытаться найти адекватную замену. Оказалось, что можно легко говорить When I got home. То есть, никаких противоречий в носителе языка это не вызвало, и он записал себе в лист для бумаги „раскопать про went/came somewhere“. Теперь надо не забыть носителю по аське напомнить на выходных про эту тему, чтобы она не забыла докопаться.

А мне осталось только привыкнуть говорить got вместо came. Сделать ещё себе футболку „Учу английский большую часть жизни, но ни черта не знаю“.

UPD: Про контекст: да, это начало фразы, которая описывает то, что происходит после прибытия. Я же потому и пишу про начало нового фрейма, когда рассказывается не то, что происходило „во время перемещения“, а то, что было после.

 

  • Current Music
    Chicane - Lost You Somewhere
vanity

Учиться надо у того, кто умнее и выше тебя

«

The most important thing in learning is copying how other people think. ... We need a cultural situation where every child has an adult friend who they can emulate. What we do now is to take a six year old and send him in a room full of six year olds. The result is that every person grows up with the cognitive capability of a five year old.

(Из цитаты статьи Kestenbaum D., 2005, The challenges of IDC: what have we learned from our past? A conversation with Seymour Papert, Marvin Minsky, and Alan Kay в журнале y_pat).

»

Кстати, именно по этой причине успешные компании обычно имеют такой инструмент внутреннего обмена знаниями, как „менторство“ — ты, как новый (или не новый, но растущий) сотрудник получаешь право выбрать себе наставника-ментора, чтобы получить возможность задавать вопросы и обмениваться опытом (а сначала — набираться этого опыта, и просто подражать традиционным решениям, тому, как принято) с уже знающим человеком. Из-за того, что ментор получается как бы „официально-назначенно-выбранным“, неразбериха с тем, к кому пойти с каким-то вопросом вне твоего понимания, решается — сначала всегда есть ментор. И тебе не приходится с самого начала самому разбираться с происходящим в компании и барахтаться, не зная, какие вопросы, и кому, задавать.

У Расиела менторская структура Маккинси, кстати, расписана весьма неплохо — в том числе включая пассаж о том, что каждый имеет право выбрать себе в менторы опытного и успешного консультанта, но чем тот успешнее и популярнее, тем больше людей, которые выбрали его в учителя, и тем меньше времени остаётся действительно на совместную работу или просто разговоры за ланчем. Хороший урок того, что ресурсов вечно недостаточно.

  • Current Music
    the mello hippo disc show — future sound of london
vanity

Закон идеальной памяти

Идеальной памяти не существует. Существует очень хорошая память (очень эффективно хранящая данные) и очень хорошие методы запоминания, но всегда часть данных проходит мимо фильтров восприятия — а значит, и не фиксируется в памяти.

Хорошая память у tobe. И у centralasian. И у каждого по-разному. Цеа хранит данные проектами и визуальными сетями, он организует их в ассоциативные системы — похожие на те, которыми пользуются другие люди, работая с ассоциациями, но у цеа ассоциации полнее и глубже, причём это, похоже, не только заслуга хардвера (то есть самих нейронных связей), но и результат работы эффективной самотворной модели, по которой всё воспринимаемое организуется и подцепляется в цельные контексты — достаточно посмотреть на систему разметки основного журнала, и на устройство aman_geld.

tobe, насколько мне довелось испытать, хранит целые „размеченные потоки“, которые также привязаны к ассоциативной „проектной“ сети и хронологии, и всё это в сочетании с очень большим, формально „неиндексированным“, массивом просто данных — и здесь уже значительную роль играет именно хардвер. Про организацию tobe мне особенно не рассказывал, может, как-нибудь в будущем.

Кое-что по теме структурирования и упорядочения ещё можно извлечь из записи centralasian „как я храню свои фотографии“, описывающей рутину хранения и организации колоссального визуального архива — слегка экстраполировав, можно применить к любым данным вообще, так как дело не в софте и не в хардвере.

...Когда мы устраивали двухдневный заезд-заход по центру МСК, я, ради циничного экспериментального интереса попробовала подловить цеа на разных „памятийных ошибках“, так как прежде плотно общаться с людьми, у которых хорошая и организованная память, мне не приходилось — и надо было попробовать, что будет. В итоге выяснилось, что организация — это тот самый молоток, который определяет, какие гвозди ты будешь им забивать. Она затачивает все когнитивные фильтры, которые выбирают, что идёт в копилку, а что выпадает.

Какие-то события, метки, которые мне знакомы и которые я иногда вытаскивала в вопросах и описаниях, оказывается, не были сохранены и были пропущены, не говоря собеседнику ни о чём понятном.

Находка подтвердила мои личные ощущения — так как меня некоторое время беспокоила мысль, что я „очень многое упускаю“, не желая замечать. При взгляде со стороны, стало понятно, что никакого „многого“ нет. Есть лишь неактуальные и потенциально бесполезные для меня данные. Со всем вытекающим их игнорированием.

Про хорошую память tobe я знаю уже достаточно давно — так как приходилось с ней сталкиваться в проектно-личных режимах, а тут на четыре отпускных дня представилась возможность плотно пообщаться ещё с одним прекрасным человеком из скромной компании „мальчиков с феноменальной памятью“. Теория о когнитивных фильтрах удачно прошла — поймать tobe на памятийных ошибках оказалось немного сложнее, чем меня, но всё же получилось. И выводов два: первый — уже озвученный, о том, что память хранит не всё. Второй же гораздо интереснее:

Ассоциативные сети и ключи в них у всех разные. Если ты не синхронизируешь свою „систему ассоциаций“ и систему ассоциаций собеседника, если вы не будете работать в одной схеме координат — данные не будут получены. А значит — могут считаться потеряны (хотя владелец их совершенно спокойно достанет при необходимости).

Это тот самый случай, когда поисковая система говорит „измените фразу и повторите запрос“.

Косвенное подтверждение удалось получить как раз за четыре дня в СПБ — разные события маркировались по-разному, на разные вещи мы обращали внимание по-своему, и если мы не держались общей линии хронологии (то есть, по порядку фактов восстанавливая, что за чем шло), то очень быстро начиналась рассинхронизация — и из одной истории вырастает две.

Зато... Зато... Это же позволило устроить нам в итоге отличные игры с „суммированной памятью“, когда события восстанавливаются до точных слов, оттенков, и мыслей и состояний до мельчайших подробностей, за счёт памяти и некоторого восстанавливающего моделирования — и было очень комфортно говорить об одном и том же, дополняя и активируя воспоминания друг друга, испытывая редкое чувство единения из-за похожести ресурсов — не было ни ненужного преимущества, ни недостижимого отставания. Это, как раз, было одним из самых сильно впечатливших меня ощущений.

Моя собственная память никогда хорошей не считалась, и где-то до середины и окончания института меня этот вопрос даже не беспокоил — учёба на нужные мне проходные баллы давалась довольно легко (а когда не давалась, то хорошие отношения с преподавателями, общительность и убедительность помогали восполнить лень при подготовке — благо, быть одной из лучших студенток в толпе долбоящеров было очень легко, достаточно держаться первых рядов, или в ходе семинаров поддерживать со стоящим у кафедры профессором диалог), а красный диплом меня никогда особо не привлекал, так что перенапрягаться было ни к чему.

Зато вот в работе, когда приходится мешать сразу по несколько рабочих и личных проектов, и сочетать это с постоянной борьбой с информационной перегрузкой — вот тут памяти стало не хватать. Пришлось сначала учиться работать с данными (до сих пор учусь), и применять в жизни навыки по улучшению и оптимизации процессов (а с этим пошла вторая линия оптимизации — ноотропы). Перестройка привела к тому, что я почти не храню чистые данные в памяти. Там лежат данные с индексами. Если какой-то материал используется всё время, то он вытаскивается почти мгновенно. Если не используется, но лежит в индексе — то вытаскивается почти мгновенно из книг, истории или яндо-гугла. „Достаточно знать, где искать и что искать“. То есть знать, как задавать и формулировать вопрос.

И при этом индексы — это те же ассоциативные сети, в которые есть вход со стороны хронологии, участников, событий, мыслей и локаций — так, если я вытаскиваю что-то из индекса, то это, как правило, уже находится в контексте — думала о том-то, обижалась на то-то, ты стояла там-то и делала то-то. Такое хранение позволяет очень легко восстанавливать последовательности событий и устанавливать причинно-следственные связи. Относительно полная реконструкция прошлого на кончиках пальцев. Иногда случаются накладки, но мне дешевле править мелкие ошибки, чем сидеть, как обычный человек, в ограниченном поле знаний.

Резюме же таково: идеальной памяти не бывает. Но мозговую систему можно:

  • натаскать и натренировать на самые часто используемые и актуальные типы данных (настройка фильтров), и тогда они будут откладываться сами, без сознательного контроля
  • научить оценивать и сортировать данные с разной степенью точности (в зависимости от требований скорости)
  • оптимизировать под себя так, чтобы эффективно использовать то, что есть — это могут быть индексы и ассоциативные цепи, могут быть мнемонические трюки или хранение данных в картинках-образах, а не в виде „знаний“ (текстово-логических объектов). Каждый выбирает инструмент под себя. И разные схемы будут работать у каждого по-своему.



  • Current Music
    Мой рок-н-ролл (Indian Version) — Би-2
vanity

[ Q ] Пора коллекционировать урбан-сказки и сны // chingizid — впервые на поверхности

Метро появляется последнее время повсюду вокруг меня. Ясно, что оно „было всегда“, но теперь оно стало появляться активно — вот в обсуждении всплывёт, что „сегодня приснилось“, а то и в проходящих через руки ссылках („метро-город“ m_mirrel), или в ленте („метро в ГЗ МГУ“ чингизида, цитата ниже).

Обнаружилось, что на одном из верхних этажей ГЗ МГУ есть станция метро (на самом деле это было нечто среднее между метро и лифтом), откуда иногда отходят такие специальные составы на поверхность земли. Потому что "на самом деле" мы живем под землей, внутри планеты, в точности, как лунные жители Уэллса, просто эта информация - не то чтобы даже засекречена, никаких таких особых секретов, а просто вот не афишируется. Зачем, дескать, лишний раз напоминать о неприятном. Это только для меня был сюрприз - ну, шизофреникам среди людей вообще трудно живется.

И вот один из старожилов ГЗ МГУ предложил мне прокатиться наверх. Дескать, пока еще ходят поезда. А то скоро их могут отменить. И мы поехали.

"Состав" был смешной: несколько лифтов сцеплены, как вагоны метро; посадка осуществлялась сразу с нескольких этажей. Кроме нас было еще несколько пассажиров, очень похожих на пассажиров поезда из мультфильма "Унесенные призраками" - такие же таинственно-невнятные интроверты.

На поверхности было темно, прохладно и абсолютно пусто. Какая-то бессмысленная степь. И небо над головами темное, без единой звездочки. При этом мы не были разочарованы: с самого начала знали, что наверху ничего особенного нет, кроме свежего воздуха. Обратно мы вернулись другим поездом, который был как-то связан с рестораном в Останкинской башне - "Седьмое небо", или как он там называется.




  • Current Music
    Hairy Insides — Fila Brazillia
vanity

Из жизни блокнота: раскладывание по контекстам в рамках бумаги

Группировка категорий-контекстов

Задача, с которой я столкнулась в прошлый раз, и отложила её на потом: раскладывание по контекстам в рамках бумаги сложнее сортировки вручную (когда перед тобой карточки-объекты) — нужно заранее знать, как ты будешь организовывать структуру каждой из категорий-контекстов, составляющих индекс.

Терминология: в качестве структурирующих используется два понятия — категория и контекст. Отличия их состоят в том, что контекст — это более общее и аморфное образование, которое охватывает сразу конкретную ситуацию или тему, в отличие от категории, которая старается формально определить предмет.

Вместе категория с контекстом образуют верхний уровень общей, генерализованной метаинформации, который предназначен для грубой или быстрой ориентации в контекстах в целом.

В каждый контекст может входить несколько категорий. Одна и та же категория может входить в разные контексты, её никто не ограничивает. В то же время, несмотря на различную природу, категория и контекст равноправны, поэтому контекст можно считать „неформализованной категорией“, и он также может входить в другие контексты.

Стоит напомнить, что есть ещё более низкий уровень гранулирования — это ключевые слова, которые детально описывают предмет, и ещё ниже по иерархии — сводка-резюме (summary) по записи. Это уровень микрометаинформации, заточенный под быструю работу с конкретными записями и событиями. Прямой связи или зависимости между двумя уровнями (общей и микро-метаинформации) нет. Так, ключеслова в записях могут быть одинаковыми при разных контекстах, к которым будут отнесены эти записи.

Пример употребления терминов: в нашем случае „менеджмент“ является формальной категорией, „управление пассивной мотивацией“ — это ключеслово, а „управление творческим персоналом“ — контекст.

Почему важно заранее понимать, как будет организована каждый из контекстов-категорий нового индекса:

  • Для экономии места — чтобы не оказалось по одной две записи-якоря на странице каждой категории.

    Во-первых, это уменьшает активный объём бумаги (меньше страниц листать) и повышает уровень обозримости индексов, во-вторых, более плотное и оптимальное размещение категорий-контекстов в индексе даёт хорошие шансы увидеть неочевидные до того связи (в идеале такой индекс составляется в виде тематической карты на большом листе ватмана или складывая его на плоскости из листов А4, по мере заполнения).

  • Для экономии времени на поддержке и дальнейшей перестройке индекса — тот самый случай, когда день анализа и затем проектирования спасает от недели избыточных работ по дефрагментации и реорганизации списка категорий.

Статистика: сейчас индекс всех записей составляет пять листов, или девять с половиной страниц, ориентировочно 312 записей. С категориями/контекстами оценить объём сложнее. По средним значениям выходит около восьмидесяти категорий, около полусотни контекстов.

Временной интервал — c седьмого августа до пятого октября.

Так как сделать эти индексы нужно всё равно, приходится искать решения-компромиссы между удобством (и моей ленью) и эффективностью. Что мной предложено мне в ходе первых размышлений:

  • Метод 1: Можно по очереди выбирать конкретную категорию, чтобы разобрать её из всего индекса, и взяться за следующую. Это долго, но максимально эффективно. Варианты оптимизации процесса: разбирать постранично, то есть разобрать/сгруппировать все категории с одного листа, затем со следующего, и так до конца пройти все листы индекса.

    На первый взгляд это быстрее, потом стало ясно, что после такой процедуры уже новые списки придётся переделать начисто, дефрагментировав и собрав отрывки разных контекстов с разных страниц в целые блоки. [m01]

  • Метод 2: Разобрать сначала весь индекс, посчитав показатель заполненности каждого контекста/категории (то есть получаем список вида „эргономика: 16; культура аппенинского полуострова: 4;“). После этого распределяем пространство (пропорции известны), прикидываем последовательности и зонируем бумагу (делим на зоны, объединяющие сходные контексты). Теперь с песнями проскакиваем насквозь через весь индекс по первому методу (одна за другой категории полностью). [m02]

  • Метод 3: Посчитать хотя бы количество категорий, свести их сами в индекс (когда кроме названий категорий/контекстов у нас ничего нет, зато они сами уместились на одну страницу, и уже поддаются зонированию), после этого отработать по первому методу. [m03]

Все три варианта жизнеспособны и в своих применениях — эффективны. Осталось взять правильный молоток для моего шурупа. И что-то мне подсказывает, что как я ни пытаюсь стелить соломку, всё равно шишки будут (они уже пошли, но это, также, как и история с микрометаинформацией — тема для совсем другого рассказа).

Впрочем, остаётся ещё смешной вариант — раскидать-расписать всё и правда на карточки, карточки отсортировать за пару часов неспешной работы, подшить их потом в отдельную папку или сделать из них ролодекс. Понятно, что мы лишаемся самодостаточного блокнота...

 
 
 
 

  • Current Music
    Down & To The Left — Amon Tobin
vanity

Сложности при работе с памятью? Так это никому это не нужно

По-моему, вполне очевидно, что хранить в памяти „развёрнутый“ поток — это красивая, но абсолютно нереалистичная идея. С другой стороны, даже не храня в памяти сознательно почти ничего, обычный человек не может вспомнить до 99,х% (в качестве х стоят разные цифры — от одной до девяносто девяти сотых) событий, с ним произошедших в течение жизни. Даже если откинуть негативные/замещённые события, рутину, тоску и перебранку у кассы в метро, то остаётся очень внушительное количество событий и происшествий, которые изменили или могли бы изменить жизнь этого человека в другую сторону.

Память есть. Мозги не отшибло после выхода из школы и института. Доказательства теорем и стихотворения наизусть заучивали. Тогда почему не выходит пользоваться памятью лучше? Давайте думать...

Collapse )

[01] [02] /

  • Current Music
    EM Sunday 12th July 2:00 - 4:00am — Deep Dish
vanity

[ L ] POPfile: статистический анализ для борьбы со спамом

POPfile

POPfile — это прокси-агент с эвристическим анализом, просматривающий всё, что через него проходит, и в зависимости от этого классифицирующий почту по категориям („buckets“ или „вёдра“, в терминологии POPfile).

Сам агент делает только две вещи:

  1. анализирует почту
  2. вставляет категорию, либо добавляя её идентификатор в тему письма (subject line), либо добавляя служебный заголовок X-Text-Classification с идентификатором категории

В результате, почту можно фильтровать не только с помощью жёстких правил на стороне программы-клиента (Outlook Express, The Bat и др.), но и пользоваться гибким анализатором. Применено очень интересное решение, когда все почтовые настройки делаются только на клиенте, и в POPfile вообще не нужно прописывать все пароли и логины для множества аккаунтов.

Главным достоинством является её фундамент — байезианский алгоритм анализа, позволяющий увеличивать точность отделения (и разделения по категориям) писем по мере роста проанализированной базы.

Другим достоинством является её Open Source — POPfile написана на Perl, и не только совершенно спокойно работает в фоновом режиме на WinXP (и любых других Windows), но существующая версия для „чистого Perl“ вообще не зависит от платформы.

Единственным ограничением на сегодняшний день является возможность работать только по POP3, но пока что этого вполне хватает для разгребания мусорных завалов. Обсуждается вопрос поддержки IMAP. Доступ же к веб-почте, вроде Yahoo-mail или HotMail легко обеспечивается через пакет web2pop, который позволяет работать с этими сервисами через The Bat! или Eudora.

«

What is POPFile?
POPFile is an automatic Naïve Bayesian email classifier created by John Graham-Cumming. Although it is typically used for spam classification, it can also be used for general email sorting. Typically, spam filtering users of POPFile are getting near 98-100% effectiveness with very few false positives.

How does POPFile work?
Magic. Well, that and an old, but powerful mathematical technique known as Bayes Theorem (to be precise, Naïve Bayes). POPFile uses the algorithm to quickly break down messages into words, parse attachments and filter out HTML to automatically sort a message into different “buckets”. Your email client can then transfer the messages into different mailboxes based on the bucket classification. POPFile learns by determining the messages characteristics associated with each bucket. Functionally, it works as an email proxy, sitting between your email client and your email server. Commands generated by your email client are passed through POPFile directly to the server. POPFile works all of its magic as the messages are retrieved.

What separates this project from other Naïve Bayesian email classifiers?
A few things actually... Firstly, POPFile is not tied to a certain brand or type of email client or server (although it currently only works via POP3). POPFile is written in Perl. As Perl is available for a wide array of platforms, POPFile is compatible with a very wide array of computers. It is a highly configurable email classifier, not limited to spam filtering. When used for spam classification, it isn't limited to a simple "spam", "non-spam" classification. POPFile doesn't force users to use heavyhanded approaches like blacklists, which can be problematic when they make a mistake. Just to name a few differences…

Другие возможности:

  • неограниченное количество почтовых аккаунтов (требуется только перенастроить для каждого аккаунта почтовый клиент, не трогая POPfile)
  • „быстрое“ обучение путём скармливания анализатору базы спама или, напротив, нужных рассылок или архивов списка рассылки
  • поддержка „белых списков“ (ключи в теме, адресе получателя или отправителя)
  • настройка через веб-интерфейс:
    • создание, переименование и удаление „вёдер“-категорий
    • просмотр статистики по каждой категории
    • отмена и принудительное указание категории для отдельных писем („обучение“ анализатора)
    • просмотр каждого письма с выводом сведений о том, почему письмо классифицировано именно так
    • создание и удаление записей „белого списка“
    • изменение номеров порта для POP3 и веб-интерфейса
    • включение/выключение добавления идентификатора категории в поле темы и служебные заголовки
    • настройки безопасности (доступ к POP3/HTTP с других компьютеров, пароль к веб-интерфейсу)
  • возможность каскадного встраивания вместе в антивирусами или брандмауэрами
  • поддержка внешних модулей расширения
  • ограничение доступа:
    • по умолчанию закрыт доступ извне к прокси POP3
    • по умолчанию закрыт доступ извне к веб-интерфейсу по HTTP
    • возможно установить пароль для доступа к веб-интерфейсу

POPfile:

Дополнительный пакет для доступа к веб-почте web2pop:

Ссылки по теме:

Ну что, под лжекат, мои маленькие друзья?

  • Current Music
    Party 9 — Faust