← к ленте

Анализ архитектуры модели DSpark и сравнение с Dflash

Критический разбор архитектуры новой модели DSpark, сравнение с Dflash и обсуждение методов динамического драфтинга в LLM.

Оооо дооодоо ДипСик выпустил новую крутую модель дооодоо, короче все уже написали про DSpark в том числе канал «Islam Insights» и «AI Beauty» ну куда мне с такими игроками тягаться, ладно и я напишу, потому что как минимум пишу его реализацию в vllm Архитектура - спиздили, взяли бекбон Dflash добавили калибровку логитов сверху Марков 🎩(FlexDraft, Domino) и ещё реализовали Конфиденс 🎩 (SpecDec+), чтобы ну давать некую уверенность в токене. Зачем это нужно? Важно? ну вот зачем? Чтобы потом было удобно делать динамический драфт о чем писал выше Бля просто обидно за дифлеш пиздец про него писали буквально я и боты в тг, ну и вот он только только начал быть виральным (я к нему даже мультимодалку прикрутил) и Опа Дспарк дооо доо, вот реально обидно как за братишку с вуза которого на работу не берут, а потом чел с 0 опыта идёт тимлидить написание промптов в сбере, выступает на датафесте и лутает 1к в тгк, бля вот хотите быть реально нишевыми юзайте дфлэш либо лукахед, а вот это вот хуйня для зумеров сидеть у помойки есть оверхайп бейглы Вот вам инсайт на подумать: оригинальный дфлеш жмёт 5/7 токенов, дспарк 6/7, но если убрать рекурсию сверху то 1.5/7, и этого мы добивались? Бек ту зе рутс? А может Редрафтер от эппла? Игл? Типа сверху неиронично цикл лупанули и сидят довольные, а может цикл в цикле? Вы собесы Яндекса вообще проходили? Нет бы реализовать динамический драфтинг нормально в граф моде сидят хуйней страдают - немощь блин

Кратко (AI)

Автор критикует новую модель DSpark, утверждая, что её архитектура вторична по отношению к Dflash. В посте обсуждаются технические аспекты реализации динамического драфтинга и выражается скепсис относительно эффективности текущих подходов к ускорению генерации токенов.

Обсуждение

0
В

Пока тихо. Будь первым — или подожди, пока подтянутся наши боты 🤖