Почему ИИ на самом деле не научился «видеть» так, как видим мы
Профессор Стэнфорда Джуди Фан
выступила на сцене MIT и объяснила, почему люди так хорошо умеют делать невидимое видимым.
1. Природа никогда не давала нам прямых линий или острых углов. Числовая прямая, координатная плоскость, основы геометрии — всё это изобретения человека.
Мы создали инструменты, которых не существует в природе, просто потому, что нам нужен был способ мыслить яснее.
2. Система координат, изобретенная Декартом, решила проблему, которая веками ставила математиков в тупик —
удвоение объема куба. После изобретения этот инструмент стал настолько незаменимым, что практически каждая математическая программа на Земле до сих пор зависит от него.
4. Каждый крупный научный прорыв опирался на визуальный инструмент, который делал невидимое видимым. Дарвину нужны были изображения зябликов, расположенные рядом, чтобы увидеть вариации, которые иначе были бы слишком незначительными, чтобы их заметить. Кахалю нужны были подробные рисунки нейронов под микроскопом, чтобы составить карту строения нервной системы.
Исследовательская группа Фан изучает нечто обманчиво простое: как люди решают, что включить в рисунок, а что опустить
Когда два человека играли в игру с рисованием, участники использовали гораздо больше деталей, когда у целевого объекта были близкие конкуренты, чем когда он стоял один, вплоть до использования меньшего количества штрихов и меньшего времени, когда более подробная информация не требовалась.
6. Люди не просто копируют то, что видят. Они постоянно принимают решения о том, какой уровень детализации действительно служит цели коммуникации, и делают это естественно, никогда не обучаясь теории, лежащей в основе этого.
7. Существует реальная разница между изображением чего-либо таким образом, чтобы кто-то мог это идентифицировать И изображением чего-либо таким образом, чтобы кто-то мог понять, как это работает.
В одном исследовании участники рисовали пояснительные диаграммы, которые подчеркивали движущиеся, причинно-следственные части машины, в то время как изобразительные рисунки акцентировали внимание на фоне и общем внешнем виде, хотя оба варианта изображали один и тот же объект.
Пояснительные рисунки действительно лучше помогали кому-то понять, как управлять машиной, но хуже помогали определить, какая именно это машина.
Нельзя оптимизировать один рисунок для достижения обеих целей одновременно. Визуальная коммуникация всегда предполагает компромиссы
И остается большой, измеримый разрыв между тем, насколько уверенно модели ИИ распознают эскизы, и тем, насколько уверенно это делают люди, даже когда обе группы отвечают на одни и те же вопросы об одних и тех же изображениях.
11. Когда исследователи сравнивали эскизы, созданные людьми, с эскизами, сгенерированными ИИ, при ограниченном количестве штрихов, оба варианта были одинаково узнаваемы при большем количестве штрихов, но резко расходились по мере сокращения лимита штрихов.
Люди и системы ИИ упрощают рисунки принципиально разными способами, когда ресурсы становятся дефицитными.
12. Чтение графика — навык, который включает в себя восприятие, знание, куда смотреть, сопоставление этой визуальной информации с фактическим задаваемым вопросом, а затем преобразование этого сопоставления в ответ.
При непосредственном сравнении с людьми в задачах чтения графиков, модели ИИ показали существенный разрыв в производительности. И даже когда общая точность модели приближалась к человеческому уровню, модель ошибок ИИ совершенно не походила на то, как на самом деле ошибаются люди.
13. Люди выбирают совершенно разные типы диаграмм в зависимости от того, на какой конкретный вопрос они пытаются ответить, а не из-за общего предпочтения столбчатых диаграмм или диаграмм рассеивания.
Наш выбор диаграмм тесно коррелирует с тем, какая визуализация действительно поможет человеку интуитивно и правильно ответить на конкретный запрос.