Данная нода необходима чтобы группировать данные по заданным колонкам. Семантически является аналогом функции GROUP BY в SQL.
Нода принимает на вход поток данных, давая возможность выбрать колонки, по которым необходимо совершить группировку, и колонки, которые необходимо агрегировать по заданым функциям.
Можно использовать данную ноду для избавления от дубликатов (DISTINCT). В таком случае необходимо выбрать все поля в качестве агрегатов.
Доступные следующие функции агрегации:
- Среднее (AVG)
- Количество (COUNT)
- Сумма (SUM)
- Максимум (MAX)
- Минимум (MIN)
- Медиана (MEDIAN)
- Первое значение (FIRST)
- Последнее значение (LAST)
- Квантиль (QUANTILE)
- Стандартное отклонение (STDDEV)
- Дисперсия (VARIANCE)
Для того, чтобы группировка заработала необходимо выбрать хотя бы одну колонку в списке агрегатов. При этом не обязательно выбирать показатели к агрегации.
Иногда требуется найти сумму по полю. В таком случае рекомендуется на этапе до группировки завести техническое поле с одинаковым значением и группировать по нему.