Поговорим о проблеме батч чтения и записи большого потока данных. Расскажем про то, как решали эту проблему, на примере сервиса отложенной проверки писем Rmspam.
Обсудим, при чём тут HDFS, как он решает поставленную проблему, почему другие хранилища не подошли. Посмотрим, как HDFS работает под капотом. Какие есть подводные камни и тонкости при работе с ним, какие шишки набили и какие выводы сделали.