:: urbansheep (urbansheep) wrote,
:: urbansheep
urbansheep

[ L ] Ошибка стоимостью в миллионы

Вчера мы с dixi и copylove неплохо поболтали за вечерним кофе после очередного юзабилити-семинара, обсуждали перспективы Ю, проектирования интерфейсов и ИА в контексте бизнес-процессов, узконишевого и комплексного консалтинга, говорили о сложностях в работе и о том, куда двигаться дальше, и о разных историях из жизни.

Среди прочего затронули тему сложности интеграции результатов работы (тестирования и разработки) UXD-команды в финальный продукт. В том числе из-за того, что весь UXD-комплекс считают „полировкой“ на готовом продукте, и если выясняется при тестировании, что надо переделывать, к примеру, треть программной системы, то высокая стоимость таких „изменений на финальных стадиях“, делает проведённое исследование бессмысленным — клиент на внесение крупных изменений просто не пойдёт, даже если цена этой ошибки чересчур велика.

А тут сегодня, буквально впродолжение вчерашнего нашего разговора о тестировании (как обычном, так и интерфейсном) появляется на слэшдоте анонс статьи о том, как ошибка при апгрейде обрушила непрерывный издательский цикл в Чикаго Трибьюн:

The Chicago Tribune's efforts to upgrade its computer system over the weekend turned into a fiasco when the system crashed, halting all printing operations and leaving about half of the Trib's subscribers without papers. The software contained 'a coding error,' according to a spokesman who estimated the cost to resolve the problem at 'under $1 million.'

И дальше ещё одна ссылка:

One line coding error cost $60 million dollars:

AT&T Failure of January 15, 1990
Link 1 [google.ca], Link 2 [berkeley.edu], Link 3 [soft.com]

On January 15, 1990, 114 switching nodes of the AT&T long distance system went down. The published cause of the crash was a bug in the failure recovery code of the switches. When a node crashed, it sent "out of service" message to the neighboring nodes, which are supposed to re-route traffic around it. However, the bug (a misplaced "break" statement in C code) caused the neighboring nodes to crash themselves upon receiving the "out of service" message, and further propagate the fault by sending an "out of service" message to nodes further out in the network.

The crash lasted 9 hours, while programmers searched for the cause of the bug. An estimated 60 thousand people were left without telephone service, and 70 million phone calls went uncompleted. AT&T estimates at least $60 million in lost revenue and damage to its reputation; reliability was a central point in AT&T's marketing campaign against other long distance providers at the time. The incidental damage to businesses that were unable to operate due to lack of telephone service is hard to estimate, but is presumably much larger. The public safety and national security implications of such a large telephone system outage are distressing as well.

Но самым интересным моментом является повторяющаяся тема „проще и выгоднее признать свою ошибку“ — с разными причинами. Где-то потому, что работает классическая история о менеджере, который провалил дорогостоящий проект, но получил бесценный опыт, а потому увольнять его — выбрасывать деньги на ветер. Где-то — из-за того, что стоимость ошибки косвенно указывает на уровень зависимости системы от работы данного конкретного разработчика. И, значит, от его уровня и квалификации — миллионные потери в результате ошибки разработчика происходят совсем не так часто.



Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments