Типы и трансформация изображений¶
Цель данной демонстрации – показать способы задания изображений и базовые принципы их преобразований, в особенности опираясь на аффинную трансформацию.
using Images # Библиотека обработки изображений
using ImageShow # Библиотека отрисовки изображений
using TestImages # Библиотека тестовых изображений
Типы цветовых пространств¶
Любое изображение – это просто массив пиксельных объектов. Элементы изображения называются пикселями, а Julia Images рассматривает пиксели как первоклассные объекты. Например, у нас есть Gray-пиксели в оттенках серого, RGB-пиксели цвета, Lab-пиксели цвета.
Начнём анализ с формата RGB (аббревиатура, образованная от английских слов red, green, blue – красный, зелёный, синий) – аддитивная цветовая модель, описывающая способ кодирования цвета для цветовоспроизведения с помощью трёх цветов, которые принято называть основными. Выбор основных цветов обусловлен особенностями физиологии восприятия цвета сетчаткой нашего глаза.
img_rgb = [RGB(1.0, 0.0, 0.0), RGB(0.0, 1.0, 0.0), RGB(0.0, 0.0, 1.0)]
dump(img_rgb)
Gray – это однокональная матрица, описывающая изображения в оттенках серого цвета. По умолчанию используется 8-битное кодирование цвета.
img_gray = rand(Gray, 3, 3)
dump(img_gray)
LAB – аббревиатура названия двух разных (хотя и похожих) цветовых пространств. Более известным и распространенным является CIELAB (точнее, CIE 1976 Lab*), другое – Hunter Lab (точнее, Hunter L, a, b). Таким образом, Lab – это неформальная аббревиатура, не определяющая цветовое пространство однозначно. В Engee, говоря о пространстве Lab, подразумевают CIELAB.
img_lab = rand(Lab, 3, 3)
dump(img_gray)
Перевод между типами объектов¶
Gray.(img_rgb) # RGB => Gray
RGB.(img_gray) # Gray => RGB
RGB.(img_lab) # Lab => RGB
Трансформация изображений¶
Для начала загрузим изображение из файла .jpg.
img = load( "$(@__DIR__)/4028965.jpg" )
Увеличим контрастность загруженного изображения. Функция adjust_histogram(Equalization(),...) может обрабатывать различные типы входных данных. Тип возвращаемого изображения соответствует типу ввода. Для цветных изображений вход преобразуется в тип YIQ, а канал Y выравнивается, после чего он объединяется с каналами I и Q.
alg = Equalization(nbins = 256)
img_adjusted = adjust_histogram(img, alg)
Уменьшим размер изображения в 4 раза относительно исходника. Imresize позволяет изменять размер, используя отношения относительно исходного изображения, как показано в примере ниже, а также позволяет изменять размер с использованием ручного задания размерностей нового изображения, например:
imresize(img, (400, 400)).
img_small = imresize(img_adjusted, ratio=1/4)
print(size(img_adjusted), " --> ", size(img_small))
Аффинное преобразование (от лат. affinis «соприкасающийся, близкий, смежный») – отображение плоскости или пространства в себя, при котором параллельные прямые переходят в параллельные прямые, пересекающиеся – в пересекающиеся, скрещивающиеся – в скрещивающиеся. Базовые пребразования изображений используют решетку индексов для оперирования действиями над изображением. Преобразование задаётся матрицей трансформации изображения по принципу, описанному на картинке ниже.
# Вспомогательная функция контроля размерностей
function C_B_V(x, max_val)
x[x .> max_val - 1] .= max_val - 1
x[x .< 1] .= 1
return x
end
Далее объявим функцию аффинной трансформации изображения, в которой:
- theta – это матрица трансформации;
- img – это входное изображение;
- out_size – размеры выходного изображения;
- grid – решётка пиксельной индексации.
function transform(theta, img, out_size)
grid = grid = zeros(3, out_size[1]*out_size[2])
grid[1, :] = reshape(((-1:2/(out_size[1]-1):1)*ones(1,out_size[2])), 1, size(grid,2))
grid[2, :] = reshape((ones(out_size[1],1)*(-1:2/(out_size[2]-1):1)'), 1, size(grid,2))
grid[3, :] = ones(Int, size(grid, 2))
# Умножение theta на grid
T_g = theta * grid
# Вычисление координат x, y
x = (T_g[1, :] .+ 1) .* (out_size[2]) / 2
y = (T_g[2, :] .+ 1) .* (out_size[1]) / 2
# Округление координат
x0 = ceil.(x)
x1 = x0 .+ 1
y0 = ceil.(y)
y1 = y0 .+ 1
# Обрезание значений x0, x1, y0, y1
x0 = C_B_V(x0, out_size[2])
x1 = C_B_V(x1, out_size[2])
y0 = C_B_V(y0, out_size[1])
y1 = C_B_V(y1, out_size[1])
# Вычисление базовых координат
base_y0 = y0 .* out_size[1]
base_y1 = y1 .* out_size[1]
# Работа с изображением
im_flat = reshape(img, :)
# Обрабатываем координаты
A = (x1 .- x) .* (y1 .- y) .* im_flat[Int.(base_y0 .+ x0 .+ 1)]
B = (x1 .- x) .* (y .- y0) .* im_flat[Int.(base_y1 .+ x0 .+ 1)]
C = (x .- x0) .* (y1 .- y) .* im_flat[Int.(base_y0 .+ x1 .+ 1)]
D = (x .- x0) .* (y .- y0) .* im_flat[Int.(base_y1 .+ x1 .+ 1)]
# Расчет результата
result = reshape((A .+ B .+ C .+ D), (out_size[1], out_size[2]))
return result
end
Для начала применим эту функцию к изображению в оттенках серого.
img_sg = Gray.(img_small)
Как мы видим из данных ниже, изображения серого цвета имеют 8-битную разрядность цветов, и размерность её представлена только шириной и высотой.
dump(img_sg[1])
size(img_sg)
Зададим для данного изображения матрицу трансформации.
theta = [2 0.3 0; -0.3 2 0]
Применим нашу функцию к изображению. Как мы видим, размер уменьшен в два раза и выполнен поворот.
img_transfor = transform(theta, img_sg, [size(img_sg,1),size(img_sg,2)])
Для получения обратного преоброзования найдём обратную матрицу от матрицы трансформации и выполним её округления до четвёртого знака.
theta_inv = hcat(inv(theta[1:2,1:2]), [-0.1;0.1])
theta_inv = round.(theta_inv.*10^4)./10^4
img_sg_new = transform(theta_inv, img_transfor, [size(img_transfor,1),size(img_transfor,2)])
Теперь применим данную функцию к изображению формата RGB. Для начала преобразуем изображения формата RGB к канальному представлению. Проанализируем возможности, которые перед нами открываются при таком варианте представлении изображения.
img_CHW = channelview(img_small);
print(size(img_small), " --> ", size(img_CHW))
Выбираем красный канал изображения и рисуем только красный канал.
RGB.(img_CHW[1,:,:], 0.0, 0.0) # red
Если все каналы распределены равномерно, то мы получим изображения в оттенках серого, так как ни один из базовых цветов не преобладает над остальными.
RGB.(img_CHW[1,:,:], img_CHW[1,:,:], img_CHW[1,:,:]) # Gray
Опираясь на пример с канальным изображением, мы можем реализовать аффинную транформацию для RGB-изображения, прогнав его через нашу функцию как три отдельных одномерных матрицы и объединив их результаты.
img_CHW_new = zeros(size(img_CHW))
for i in 1:size(img_CHW,1)
img_CHW_new[i,:,:] = transform(theta, img_CHW[i,:,:], [size(img_CHW,2),size(img_CHW,3)])
end
RGB.(img_CHW_new[1,:,:], img_CHW_new[2,:,:], img_CHW_new[3,:,:])
Вывод¶
В данной демонстрации мы разобрались с канальными представлениями и различными типами матричного представления изображений, а также проанализировали некоторые возможности обработки изображений в Engee.