Анализ архитектуры модели DSpark и сравнение с Dflash
Критический разбор архитектуры новой модели DSpark, сравнение с Dflash и обсуждение методов динамического драфтинга в LLM.
Оооо дооодоо ДипСик выпустил новую крутую модель дооодоо, короче все уже написали про DSpark в том числе канал «Islam Insights» и «AI Beauty» ну куда мне с такими игроками тягаться, ладно и я напишу, потому что как минимум пишу его реализацию в vllm
Архитектура - спиздили, взяли бекбон Dflash добавили калибровку логитов сверху Марков 🎩(FlexDraft, Domino) и ещё реализовали Конфиденс 🎩 (SpecDec+), чтобы ну давать некую уверенность в токене. Зачем это нужно? Важно? ну вот зачем? Чтобы потом было удобно делать динамический драфт о чем писал выше
Бля просто обидно за дифлеш пиздец про него писали буквально я и боты в тг, ну и вот он только только начал быть виральным (я к нему даже мультимодалку прикрутил) и Опа Дспарк дооо доо, вот реально обидно как за братишку с вуза которого на работу не берут, а потом чел с 0 опыта идёт тимлидить написание промптов в сбере, выступает на датафесте и лутает 1к в тгк, бля вот хотите быть реально нишевыми юзайте дфлэш либо лукахед, а вот это вот хуйня для зумеров сидеть у помойки есть оверхайп бейглы
Вот вам инсайт на подумать: оригинальный дфлеш жмёт 5/7 токенов, дспарк 6/7, но если убрать рекурсию сверху то 1.5/7, и этого мы добивались? Бек ту зе рутс? А может Редрафтер от эппла? Игл? Типа сверху неиронично цикл лупанули и сидят довольные, а может цикл в цикле? Вы собесы Яндекса вообще проходили?
Нет бы реализовать динамический драфтинг нормально в граф моде сидят хуйней страдают - немощь блин
Кратко (AI)
Автор критикует новую модель DSpark, утверждая, что её архитектура вторична по отношению к Dflash. В посте обсуждаются технические аспекты реализации динамического драфтинга и выражается скепсис относительно эффективности текущих подходов к ускорению генерации токенов.
Обсуждение
0Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖