Как-то сидя в кафе за чашкой кофе, между двумя моими товарищами разыгрался спор, по поводу фотографии на смартфон. В красном углу ринга был ярый противник таких фотографий, утверждающий что это всё симуляция и не нужно «путать божий дар с яичницей». В синем углу ринга был ярый сторонник камерофонов, утверждающий, что за мобильной фотографией будущие и фотоаппараты уже становиться не нужными. Спор был нешуточный, но ни чем не закончился. Однако тема весьма насущная, а истина где-то посередине.
Наша история немыслима без открытий и нововведений, которые меняют её ход. В большинстве своём всё, что изначально доступно ограниченному числу лиц, рано или поздно становиться доступным большим массам, в том или ином виде. Когда-то фотографию могли себе позволить лишь образованные и состоятельные люди. Но с появлением камеры Kodak, фотография стала доступна простым людям. Наша история циклична и мы можем проследить то же самое и в цифровой фотографии, когда сначала появились доступные цифровые мыльницы, а потом смартфоны, которые вытеснили с рынка те самые мыльницы, за счёт своего большего распространения и удобства. На протяжении сравнительно небольшого количества лет, технический прогресс в производстве смартфонов развивался очень стремительно. Я помню появление 3-х мегапиксельной камеры в телефоне, это было удивительно. Сейчас между производителями смартфонов разыгралась борьба за камеры в своих устройствах. Поскольку социальные сети становятся всё более важной частью современной жизни. Люди проводят в социальных сетях больше времени, чем когда-либо прежде. Они не только отправляют и получают письменные сообщения, но также используют камеры смартфонов, чтобы запечатлеть и поделиться важными моментами жизни. Соответственно качество фотографии становиться невероятно актуальным. Одни производители предлагают огромное количество мегапикселей, другие делают ставку на искусственный интеллект, кто-то начинает сотрудничать с легендарными производителями оптики, а кто-то и то и другое.
(Слева — Huawei серия P Pro, справа — Vivo X60 Pro)
Например смартфон Huawei серия P Pro, производят камеру в сотрудничестве с компанией Leica. Смартфон оснащён системой камер Vario-Summilux с различной апертурой и фокусным расстоянием. В модели Huawei P40 Pro установлены камеры на:
50 Мп, 1/1,28″, f/1,9, 23/27 мм (основной, широкий)
40 Мп, 1/1,54″, f/1,8, 18 мм (сверхширокий)
12 Мп, f/3,4, 135 мм (телефото), оптический зум 5×.
Vivo X60 Pro, сделал свою камеру совместно с компанией Zeiss.
Имеет три модуля камеры:
48 Мп, 1/2,0″, 0,8 мкм, f/1,48, 26 мм, стабилизация Gimbal (основной)
13 Мп, 1/3″, 1,12 мкм, f/2,46, 50 мм, оптический зум 2× (телефото)
13 Мп, 1/3″, 1,12 мкм, f/2,2, 16 мм 120°, (сверхширокий)
Также в смартфоне есть имитация боке, вдохновлённый ZEISS Contax Biotar 1.5 / 75 1930 года.
(Слева — Pixel, справа — iPhone 13)
Pixel
Google Pixel также успели прославиться своими фотографиями.
В смартфоне Pixel 5 установлены всего 2 камеры, не считая фронтальной:
12,2 Мп, f/1,7 (основная)
16 Мп, f/2,2 (широкоугольная)
В сравнении с предыдущими камерами показатели резко отличаются, но у Google свой подход к фотографии, который мы рассмотрим дальше. Однако компания планирует выход Pixel 6, в котором будет 3 модуля камер с большим количеством мегапикселей.
iPhone 13
Имеет также 3 модуля камер:
Телефото — Фокусное расстояние 77 мм,,оптический зум 3x,,диафрагма ƒ/2.8. шестилинзовый объектив, оптическая стабилизация.
Широкоугольная — фокусное расстояние 13 мм, диафрагма ƒ/1.8, шестилинзовый объектив.
Широкоугольная — фокусное расстояние 26 мм, размер пикселя 1,9 мкм,,диафрагма ƒ/1.5,, семилинзовый объектив, оптическая стабилизация.
Также всё это нашпиговано различными алгоритмами обработки и искусственным интеллектом.
(Слева-направо: OPPO RENO 6, Samsung Galaxy S21 Ultra, leitz one)
OPPO RENO 6 основной модуль из 4 камер:
Основной объектив 64 МП: f/1.7; автофокус
Ультраширокоугольный объектив 8 МП: f/2.2; фиксированный фокус
Макрообъектив 2 МП: f/2.4; фиксированный фокус
Монообъектив 2 МП: f/2.4; фиксированный фокус.
Samsung Galaxy S21 Ultra имеет четверной модуль на основной камере:
108 Мп, f/1,8, 26 мм (основной), 1/1,33″, 0,8 мкм, PDAF, Laser AF, OIS
12 Мп, f/2,2, 13 мм (сверхширокий), 1/2,55″, 1,4 мкм, dual pixel PDAF
10 Мп, f/2,4, 70 мм (телефото), 1/3,24″, 1,22 мкм, dual pixel PDAF, OIS, оптический зум 3×
10 Мп, f/4,9, 240 мм (перископический телефото), 1/3,24″, 1,22 мкм, dual pixel PDAF, OIS, оптический зум 10×.
Нельзя не упомянуть о смартфоне leitz one, от известной компании Leica.
Смартфон обладает 1-дюймовым датчиком изображения с разрешением 20,2 мегапикселя.
Программный движок «Leitz Engine» обеспечивает ультрасовременное вычислительное боке, цветокоррекцию, уточнение краёв и реалистичное шумоподавление для фотографии на смартфоне. В смартфоне используется режим «Leitz Looks», который был разработан инженерами Leica и обеспечивает исключительно чёткие черно-белые изображения с типичным для камеры Leica внешним видом, основанным на визуальном языке флагманской Leica M Monochrom. Доступен этот гаджет исключительно в Японии.
Технические характеристики поражают своими цифрами, некоторые показатели сродни среднеформатным камерам и даже больше. Но мобильная фотография эта не та фотография, которую мы знаем. В смартфонах нет возможности использовать большие сенсоры, как в фотоаппаратах, нет возможности установить объектив. Несмотря на большой показатель диафрагмы, физически это отверстие очень мало. Основным техническим препятствием для получения лучших фотографий является недостаток света, а свет, по сути — это и есть фотография. Производители смартфонов вынуждены придумывать различные варианты оптимизации получения фотографии, идя на определённые ухищрения и компромиссы.
Одним из таких случаев можно назвать увеличения мегапикселей. Однако это не совсем то увеличение, каким мы его себе представляем.
Сенсор камеры состоит из светочувствительных элементов — пикселей, которые расположены в ряд по горизонтали и вертикали и исчисляются миллионами. Один пиксель — это одна точка на фотографии. Чем больше пиксель, тем больше света он зафиксирует, тем меньше будет шумов и больше детализация на изображении. Но смартфоны не могут позволить себе большой сенсор и большие пиксели, большой сенсор не поместиться в смартфон, а большие пиксели при маленьком сенсоре — это потеря разрешения. В полнокадровых фотоаппаратах количество пикселей составляет в среднем от 12-64, а смартфоны с крошечными сенсорами предлагают 64 МП, 108 МП и даже 200 МП. Все эти 108 мегапикселей, это не полноценные пиксели как у фотоаппарата, а очень маленькие. К тому же пиксель может только накапливать фатоны, если мы хотим получить цветное изображение, то необходимо в конструкции применить цветной фильтр Байера. В такой затруднительной ситуации придумали технологию пиксельной Бинаризация или биннинг. Это технология объединения соседних пикселей. Объединение пикселей происходит при помощи фильтра Байера. Это набор цветных фильтров, которым накрывают диоды матрицы. Он состоит на четверть из красных, на четверть из синих и на половину из зеленых элементов. Четыре небольших субпикселя превращаются в один большой «суперпиксель», а разрешение пропорционально падаёт в четыре раза. Правда такой подход даёт производителям добиться лучшей детализации. При достаточном освещении можно не использовать биннинг, а воспользоваться полным разрешением матрицы. Также имея несколько пикселей под одним цветовым фильтром, можно какие-то пиксели недоэкспонировать, а какие-то переэкспонировать, собирая HDR. Таким образом, 108 МП матрица у Samsung, посредством биннига по факту, превращается в 12 МП, а все эти страшные цифры — всего лишь маркетинг и не более того.
Помимо увеличения мегапикселей, существует серьёзные алгоритмы искусственного интеллекта, так называемая вычислительная фотография. Эти алгоритмы создают фотографию на этапе постобработки, максимально приближенной к тому, что есть на самом деле.
Вычислительная фотография относится к цифровым методам захвата и обработки изображений, которые используют цифровые вычисления вместо оптических процессов. Вычислительная фотография позволяет получить снимок, который в принципе невозможно получить на данном устройстве.
Компания Google использует алгоритм HDR +.
Этот алгоритм разрабатывал Марк Левой с командой разработчиков, которые назвали себя Gcam, для Google Glass.
Они определили для себя 4 принципа проектирования:
1. Быть мгновенным. Система должна создавать фотографию в течение нескольких секунд и отображать её на камере.
2. Быть автоматическим. Метод должен быть без параметров и полностью автоматическим. Фотографы должны получать более качественные снимки, не зная стратегии, используемой для съёмки или обработки изображений.
3. Быть естественным. Фотографии, которые мы получаем, должны точно соответствовать внешнему виду сцены. Фотографии не должны быть карикатурными или сюрреалистическими. Сцены с очень низкой освещённостью не должны высветляться настолько, чтобы изменить видимую освещённость или выявить чрезмерный шум.
4. Быть консервативными. Этот режим съёмки должен использоваться по умолчанию. Это означает, что получаемые фотографии не должны содержать артефактов и всегда должны быть как минимум не хуже обычных фотографий. Более того, в экстремальных ситуациях она должна постепенно ухудшаться до уровня обычной фотографии.
В своей статье Стэнфордского университета разработчики писали следующее:
“Учитывая это консервативное ограничение, мы пришли к выводу, что наиболее надёжным подходом к серийной съёмке является съёмка каждого изображения в серии с одинаковым временем экспозиции. Другими словами, мы не делаем брекетинг. Мы пришли к такому неожиданному протоколу из-за трудностей, связанных с точным совмещением изображений, полученных с разным временем экспозиции. Небольшая разница в экспозиции может нарушить выравнивание изображения из-за разного уровня шума и размытости движения, а большая разница может сделать локальное выравнивание невозможным, если в кадр попадает участок, на котором не видно содержимого изображения. Последние методы слияния HDR, решают эту проблему с помощью сложного выравнивания и инпайтинга, но могут давать физически противоречивые результаты. Учитывая этот протокол, мы выбираем достаточно низкую экспозицию, чтобы избежать клиппинга (перегорания ярких участков) для данной сцены. Другими словами, мы намеренно снижаем экспозицию. Мы делаем это для того, чтобы захватить больше динамического диапазона. Мы также выбираем более короткое время экспозиции, чем обычно, чтобы уменьшить дрожание камеры, независимо от содержания сцены. Хотя использование более низкой экспозиции, казалось бы, должно ухудшить шум, мы компенсируем этот эффект путём захвата и объединения нескольких кадров.
(Материал взят из статьи Стенфордского Университета. “Burst photography for high dynamic range and low-light imaging on mobile cameras”)
Второе решение, вытекающее из нашего консервативного ограничения, заключается в том, что мы выбираем одно из изображений в серии в качестве «опорного» кадра, затем выравниваем и объединяем в этот кадр те участки из других «альтернативных» кадров, где мы уверены, что получили изображение той же части сцены. Хотя мы могли бы получить наибольший шум-сигнал, если бы были либеральны и объединили много патчей, мы предпочитаем быть консервативными, объединяя содержимое изображений только в том случае, если альтернативный патч выглядит похожим на эталонный. Кроме того, для снижения сложности вычислений мы объединяем только один патч из каждого альтернативного кадра. Наша консервативная стратегия слияния может привести к тому, что некоторые части конечного изображения будут выглядеть более шумными, чем другие, но этот артефакт редко встречается, он редко заметен.
Выравнивая и объединяя несколько кадров, мы получаем промежуточное изображение с большей битовой глубиной, большим динамическим диапазоном и меньшим уровнем шума по сравнению с нашими входными кадрами. Это позволит нам получить высококачественную (хотя и недоэкспонированную) фотографию, просто отбросив младшие биты. Однако одной из наших целей является получение естественных фотографий, даже если сцена содержит сильный контраст. Поэтому вместо этого мы усиливаем тени, сохраняя локальный контраст и разумно жертвуя глобальным контрастом. Этот процесс называется тоновым отображением HDR и он хорошо изучен. Его эффект похож на тот, который достигается традиционными методами «dodging и burning» в печатной фотографии [Adams 1981]. Мы используем вариант слияния экспозиции, поскольку он эффективен с вычислительной точки зрения и позволяет получать естественные изображения; однако возможны и другие алгоритмы.”
Таким образом, когда вы запускаете приложение камеры, оно начинает непрерывно снимать, загружая в циклический буфер от 15 до 30 фотографий, в зависимости от уровня освещённости. В момент, когда вы делаете снимок, запись прекращается и берутся последние кадры из буфера. Из первых трёх кадров выбирается самый резкий, а потом на него накладываются другие снимки исключая фрагменты, которые не изменились. Каждый снимок сравнивается покадрово и все изменённые области отсекаются. После получения склеенного кадра в дело вступает искусственный интеллект и улучшает снимок, убирая шумы, дымку, виньетку. Также в этот момент происходит автобаланс белого, дебаеризация, тональная компрессия, устранение хроматических аберраций, сглаживание полутонов, гамма коррекция, повышение контрастности, чёткости и насыщенности. И всё это происходит автоматически.
У Apple свой магический алгоритм. Когда пользователи открывают камеру, она сразу сохраняет часть снимков в буфер обмена. При нажатии кнопки затвора, айфон делает ещё несколько фотографий. Затем, со слов Фила Шиллера, в циклическом буфере вращается 4 кадра с нормальной экспозицией и 4 промежуточных кадра с пониженной экспозицией, а также 1 светлый кадр с более длинной выдержкой. Далее нейронный движок анализирует все кадры и склеивает удачные фрагменты между собой. Принципом работы алгоритма Apple является классический HDR, а благодаря плотной интеграции железа в своих телефонах им удалось сделать это успешно. И конечно здесь также не обходиться без умной обработки фотографии. Например, если в кадре недостаточно света, на помощь приходит технология Deep Fusion. Вместе с системой Neural Engine она анализирует все пиксели изображения, снятого с различными экспозициями. Из самых удачных областей формируется финальное изображение, в котором максимум деталей и самые тончайшие текстуры.
(Материал взят из статьи Стенфордского Университета. “Burst photography for high dynamic range and low-light imaging on mobile cameras”)
Сегодня мы видим стремительный рост в техническом развитии смартфонов, который конечно приправлен грамотными маркетинговыми специями, но он есть и будет продолжать расти. Отрицать само его существование бессмысленно. Скорее это будет программное развитие искусственного интеллекта, ведь не зря написано столько фантастических книг, про искусственный интеллект, который может писать картины и музыку, но это не заменит профессиональный фотоаппарат. По сути, смартфоны выдумывают фотографию и подгоняют её под то, что мы видим и даже приукрашивают. Того качества, что они дают, вполне достаточно для социальных сетей и приложений. Однако этого не достаточно для более серьёзных вещей, таких как печать фото. Это симулятивный инструмент для симулятивного мира. В то же время, смартфон — это прекрасный инструмент для решения определённых задач, когда у вас нет возможности снимать на профессиональную камеру. А его техническое развитие позволяет решать эти задачи более эффективно. Спор по поводу того, что лучше, на мой взгляд — бессмысленный, так как вещи нужно применять по назначению.