ИИ🔥

Крупнейшие открытые датасеты интернета

Обзор крупнейших публичных архивов данных, включая Reddit, Common Crawl, Wikipedia и GitHub, которые лежат в основе современных ИИ-моделей.

Наткнулся, что весь контент Reddit за всю историю бесплатно доступен. 20 лет общения сотен миллионов людей в «сердце интернета» - это всего 3.8 терабайт (только тексты). Стало интересно, какие ещё есть мега-архивы: 1/ Common Crawl - слепок почти всего интернета. Больше 9.5 петабайт суммарно. петабайт = 1000 терабайт https://commoncrawl.org 2/ Wikipedia - вся энциклопедия со всей историей правок, ~31 ТБ. Только текущие статьи - 25 ГБ. https://dumps.wikimedia.org 3/ The Stack v2 - открытый код с GitHub, 67 ТБ, 600+ языков. https://huggingface.co/datasets/bigcode/the-stack-v2 4/ LAION-5B - 5.8 млрд пар «картинка + описание», на этом росли генераторы изображений. https://laion.ai/blog/laion-5b/ 5/ arXiv - архив научных статей целиком, ~1 ТБ текста. https://info.arxiv.org/help/bulk_data.html Знал только про arXiv, остальное для меня открытие. Думаю, любая большая языковая модель, созданная с полного нуля, начиналась с этих массивов. Оставлю ссылки для удобства, в том числе своего (и конечно же никогда не воспользуюсь 😁). @midov_channel

#datasets #bigdata #ai #internet #archives #llm

Кратко (AI)

Автор приводит список крупнейших открытых архивов данных, таких как Reddit, Common Crawl и Wikipedia, подчеркивая их роль в обучении современных нейросетей. Общий объем этих массивов варьируется от терабайтов до петабайтов, что делает их фундаментальной базой для развития ИИ.