Для оценки скорости индексации важен не столько размер накопленных документов, сколько их количество, формат, средний объем текста и быстродействие источника данных. Например, если для документов не требуется OCR, а сами документы расположены в файловой системе, то обход 1 млн документов займет около суток на одном узле кластера. Если OCR требуется, то за сутки обработается около 10 тыс документов, если каждый в среднем содержит около 5 страниц текста.