У ml ops tune enginer есть простое правило: хочешь сделать быстро — пиши нативный код.
Это действительно так, когда нативный код пишут опытные разработчики. А вот те, кто только начал погружаться в волшебный мир C/C++ кода, могут столкнуться с тем, что их код стал не быстрее, а медленнее.
Почему? Потому что неявные накладные расходы при вызове нативного кода из Python и инференса ml model с wasm. Подробнее — в моем докладе.
Доклад рассчитан на людей, ищущих дополнительные способы оптимизировать запуск нейронки. Слушатели получат больше подходов к оптимизации ml piepline в deep learn.