Иллюзия кластеризации

Иллюзия кластеризации — это когнитивное искажение, тенденция ошибочно считать неизбежные «полосы» или «кластеры» значений, возникающие в небольших выборках из случайных распределений, неслучайными. Эта иллюзия вызвана склонностью человека недооценивать степень изменчивости, которая может появиться в небольшой выборке случайных или полуслучайных данных.

Сущность

Иллюзия кластеризации — это склонность человека ожидать, что случайные события будут казаться более регулярными или однородными, чем они есть на самом деле, что приводит к предположению, что появление кластеров или последовательностей в данных не может быть вызвано одной лишь случайностью.

Важным примером кластеризации является то, что звёзды на ночном небе в некоторых областях кажутся более яркими и кучными, в то время как в других областях есть «пустые» пятна. При иллюзии скопления человек просто ожидает, что этому должно быть какое-то физическое объяснение (например, звезды должны быть физически сгруппированы в пространстве), поскольку они «не кажутся действительно случайными». Однако положение звезд является случайным, и наше представление о системности является ошибочным.

Исследования

Томас Гилович, один из первых исследователей этого вопроса, утверждал, что иллюзия кластеризации возникает при различных типах случайных дисперсий, включая двумерные данные, такие как скопления в местах падения авиабомб V-1 на картах Лондона во время Второй мировой войны; или при оценке закономерностей колебаний цен на фондовом рынке с течением времени.

Хотя лондонцы разработали конкретные теории о характере бомбардировок в Лондоне, статистический анализ Р. Д. Кларка, впервые опубликованный в 1946 году, показал, что распределение бомб было близко к математической случайности.

В соответствии с разделом математики, известной как теория Рамсея, полная случайность в любой физической системе невозможна. Тем не менее правильнее было бы утверждать, что иллюзия кластеризации относится к естественной склонности человека связывать некоторое значение с определенными шаблонами, которые неизбежно должны появляться в любом достаточно большом наборе данных.

Например, большинство людей утверждают, что последовательность «OXXXOXXXOXXOOOXOOXXOO» неслучайна, когда, на самом деле, она обладает многими качествами, которые также могут оказаться характеристиками того, что можно увидеть в «случайном» потоке значений, такой как наличие равного числа каждого значения и тот факт, что число смежных кластеров с одинаковым результатом равно для обоих возможных результатов. При таких последовательностях люди, похоже, ожидают увидеть большее число изменений, чем можно было бы прогнозировать статистически. На самом деле, в небольшом количестве испытаний вариабельность и не случайно выглядящие «кластеры» вполне вероятны.

В качестве другого примера можно привести ответы SAT, стандартизированного теста с несколькими вариантами ответов в Соединенных Штатах, вопросы в котором специально распределены так, чтобы не содержать никаких длинных последовательностей. В результате студент может почувствовать давление при выборе неправильного ответа.

Существование шаблонов при оценке человеком набора данных часто можно определить с помощью статистического анализа или даже методов криптоанализа.

Рассмотрим последовательность «XXOXOXOOOXOXOOOXOX»; она случайна? Ответ — нет; если вы связываете положение «X» в строке с простыми числами, а «O» — со сложными, начиная с номера 2, — шаблон очевиден. Компьютерные программы, которые считывают и сжимают данные, предназначены, в некотором смысле, для того, чтобы «искать шаблоны» в данных и создавать альтернативные представления, из которых можно восстановить исходные данные из сжатой формы. Можно ожидать, что большие наборы данных, которые содержат «кластеры» неслучайного характера, будут хорошо сжиматься при правильном алгоритме кодирования. С другой стороны, если в конкретном наборе данных нет реальной кластеризации или шаблона, можно ожидать, что он будет плохо сжиматься, если вообще будет.

Иллюзия кластеризации была центральной в широко освещаемых исследованиях Томаса Гиловича, Роберта Валлоне и Амоса Тверски. Их вывод развенчал иллюзию «горячей руки» в баскетболе, установив, что распределение результатов неотличимо от случайности. Известные тренеры, в том числе Бобби Найт, по сообщениям, также насмехались над этой идеей.

Подобные когнитивные искажения

Использование этого когнитивного искажения при исследовании причинно-следственной связи может привести к ошибкам в том числе у снайперов.

Более общие формы ошибочного распознавания образов — парейдолия и апофения. Связанные с этим предубеждения связаны с иллюзией контроля, которой может способствовать иллюзия кластеризации, и нечувствительность к размеру выборки, при которой люди не ожидают большего изменения в небольших выборках. Другое когнитивное искажение, связанное с неправильным пониманием случайных потоков информации, носит название ошибкой игрока.

Возможные причины

Дэниел Канеман и Амос Тверски выяснили причины появления такой иллюзии и установили, что неправильное предсказание, основанное на кластеризации, вызвано эвристической репрезентативностью (которую они также впервые предложили). Кажущееся наличие рядов или последовательностей при распределении данных там, где его нет, может быть проблематично для инвесторов. Причина в том, что инвестор может интерпретировать период больших доходов как тренд, когда на самом деле это всего лишь часть нормального изменения доходности. Иллюзия кластеризации создает ловушки для инвесторов. Краткосрочные данные о повышении цен (от нескольких месяцев до нескольких лет) могут убедить нас о привлекательности определенного класса инвестиций, таких как акции, облигации или недвижимость.

Это может повлиять на стиль инвестирования — например, низкая капитализация по сравнению с высокой, или инвестирование в рост по сравнению с инвестированием в стоимость. Это может даже убедить инвестора в том, что конкретный финансовый менеджер — непогрешимый гений, когда его или ее результаты могут быть связаны только с чистой удачей.

Кроме того, необходимо принимать во внимание иллюзию кластеризации при оценке статистических данных, полученных в научных исследованиях. То, насколько уместным и точным на самом деле является кажущийся «образец», часто зависит от того, насколько большим был исходный размер выборки населения.

Например, при оценке распространенности шизофрении в определенной этнической группе было бы более надежным взглянуть на выборку из нескольких тысяч человек, чем из 100 человек. При выборе только 100 человек и наблюдении пятнадцати человек с шизофренией исследователь может заключить, что колоссальные 15 % населения страдают шизофренией — это будет еще одним проявлением иллюзии кластеризации. Принимая во внимание, что при выборе тысячи людей, скорее всего, возник бы истинный, типичный 1 % процент шизофреников, что характерно для большинства этнических людей. Большая выборка населения облегчает экстраполяцию точных чисел и позволяет избежать иллюзии кластеризации.