, ,

Community Signal KG

The Community Signal — Q1 2025

AI-сообщество Кыргызстана. январь — март 2025.

Первый квартал 2025 года — это период, когда в @ai_kgz одновременно начали оформляться сразу несколько локальных AI-инфраструктур. На фоне громких глобальных новостей — экспортных ограничений США (Кыргызстан попал во второй тарифный «тир»), создания Национального совета по развитию ИИ и старта американской программы «Dive into Silicon Valley» — внутри сообщества пошёл другой, тихий процесс: коллекции токенизаторов, пробные модели, открытые бенчмарки и регулярные технические доклады по четвергам.

Тон квартала — взрослый и деловой. В чате жёстко применяется правило «вакансия без вилки и стека удаляется» (одна из английскоязычных реплик месяца — «Wilka how much?»), участники дискутируют о ревью на ICCV, про исследовательский подход против «yet another LLM-based toy», и одновременно делятся практическим — где взять GPU, как работают эмбеддинги Nomic V2 MoE на 100+ языках. Это квартал, когда сообщество перестаёт быть только про митапы и начинает быть про инструменты.

Кыргызский язык в открытом коде

Главный сюжет квартала — оформление того, что раньше существовало как разрозненные эксперименты, в публичную, открытую инфраструктуру для кыргызского языка.

«оказывается KG = Knowledge Graphs»

Шутка одного из участников от 30 января — но за ней стоит реальная путаница: Kyrgyz NLP в открытых каталогах действительно теряется среди Knowledge Graph-проектов. Q1 2025 показывает, как это меняется.

TTS и STT от The Cramer Project

В январе на канал пришли ссылки на демонстрации AkylAI TTS Small и Kyrgyz STT Small на HuggingFace Spaces — два рабочих демо речевых моделей. На вопрос о задержке в инференсе:

«да, он на CPU крутится. ты можешь себе на gpu перекинуть. Там весь код и модель открыта»

Открытость кода при «домашнем» демо — характерный паттерн квартала: всё, что появляется, идёт сразу в открытый доступ, даже если тяжёлый инференс держит CPU.

Akylai LLM против deepseek

В феврале участники сравнивали ответы Akylai LLM (продукт того же Cramer Project) с deepseek на запросах с кыргызским контекстом. Реакция канала:

«Deepseek сильно хуже нашего Акылай»

«Чему мы рады»

Сравнения не сопровождались формальной оценкой, но факт того, что местная модель удерживается в публичной дискуссии рядом с ведущими открытыми LLM, — сам по себе сигнал.

Коллекция кыргызских токенизаторов

24 февраля на канал вышла коллекция кыргызских токенизаторов на HuggingFace: BPE и Unigram, оптимизированные для моделей вроде T5 и BERT. Авторская позиция:

«обучал только на кыргызских текстах поэтому с другими языками они не очень хорошо работают»

Узкая фокусировка — намеренный выбор, плата за качество на основной задаче.

Ссылки: https://huggingface.co/collections/metinovadilet/kyrgyz-tokenizers-collection-67bc7511855a6b996b94286c

KyrgyzBert — обучение MLM с нуля

26 февраля вышла KyrgyzBert: облегчённая архитектура (6 слоёв, 8 голов внимания, скрытый размер 512), обучение Masked Language Modeling с нуля, начиная с собственного кыргызского токенизатора.

«Тренировка велась на Masked Language Modeling (MLM)»

«Сейчас это просто MLM модель, нужно же будет дообучить под эти задачи и потом протестировать»

В обсуждении участники сразу обозначили правильный путь оценки: extrinsic evaluation на текстовой классификации и частеречной разметке, поскольку перплексия для MLM как метрика не покатит. Параллельно автор выложил FastText n-gram embeddings для кыргызского и анонсировал улучшенную версию KyrgyzBert «ближе к апрелю».

Ссылки: https://huggingface.co/spaces/metinovadilet/KyrgyzBert · https://huggingface.co/metinovadilet/KyrgyzBert

Awesome Kyrgyz NLP

В обсуждении датасетов всплыл проект github.com/alexeyev/awesome-kyrgyz-nlp — поддерживаемый список существующих кыргызских датасетов; участники канала использовали его как отправную точку при анализе предметной области (KyrgyzNLP) с опорой на публикации сообщества TurkLang.

Что осталось пробелом

Канал зафиксировал несколько технических пробелов: надёжной intrinsic evaluation для MLM-моделей всё ещё нет; датасетов для extrinsic evaluation на классификации и POS-тегировании не хватает; не закрыт вопрос о морфологически мотивированной сегментации (SentencePiece используется как прокси, но не полное решение).

AI Safety и AI Alignment как точка входа

Q1 2025 — первый квартал, в котором тема AI Safety / AI Alignment появляется в канале не как академическая абстракция, а как ивент с конкретными организаторами и спикерами.

«Первые шаги в AI Safety» — 10–11 января, онлайн

Площадка: Google Meet, ссылка через Telegram-чат «Минимизаторы скрепок» (https://t.me/miniclippy). Регистрация не требовалась.

Двухдневная мини-конференция русскоязычной AI Safety / Alignment-сцены: технический и концептуальный AI Safety, карьерные треки. Среди заявленных AMA-сессий — Миша Самин (прошёл в MIRI, институт Элиезера Юдковского) и Андрей Крутиков (Noeon Research, японский стартап с не-нейросетевым подходом к ИИ); Надя Петрова представляла Lunapark — HR-практику, эксклюзивно работающую с переходом в AI Safety / Alignment.

Сообщение, которое ставит масштаб этой темы:

«процент людей работающих над безопасностью ИИ составляет навскидку меньше 0.1% от занятых в работе с ИИ в целом»

Сам канал зафиксировал, что широких «точек входа» в AI Alignment в русскоязычном пространстве почти нет; этот ивент — попытка такие точки создавать.

Регулярные технические митапы — MadML Talks

Mad Devs запустила в Q1 устойчивый ритм еженедельных онлайн-докладов на meet.google.com/ryk-irww-moz, четверги в 18:00 по Бишкеку. Темы и спикеры:

30 января — Трансформеры и контекст в 4 млн токенов

Доклад: «Трансформеры: как увеличить контекстное окно и ничего не забыть». Memory Layers, благодаря которым Hailuo AI обучили модель с контекстным окном в 4 млн токенов; архитектура Titans от Microsoft.

13 февраля — Reasoning-модели и DeepSeek

Доклад про модели рассуждений: что такое ризонинг, как он отличается от традиционных LLM, как обучают на примере DeepSeek, и провокационный вопрос «можно ли обучить модель ризонинга за $50».

27 февраля — LLaDA, диффузионный подход к LLM

Доклад: «LLM: китайский прорыв с LLaDA». Диффузионный процесс «расшумления» текста вместо традиционного авторегрессионного подхода; сравнение LLaDA с LLaMA и GPT-4o, файнтюнинг, масштабирование.

13 марта — Хранилища данных и Big Data

Доклад: «Хранилища данных: от основ до Big Data». Реляционные vs колоночные БД, распределённые хранилища, области применения.

27 марта — XLNet против BERT

Доклад: XLNet как альтернатива BERT с авторегрессивным подходом, сравнение в задачах NLP.

Это первый квартал, в котором локальная компания держит еженедельный публичный технический эфир по AI без перерывов в течение всего квартала.

Государство и регулирование

Национальный совет по развитию ИИ

28 января глава кабмина Адылбек Касымалиев подписал постановление о создании Национального совета по вопросам развития искусственного интеллекта. Задачи совета — создавать AI-проекты, развивать науку и образование, укреплять международные позиции страны; работа идёт в рамках концепции цифровой трансформации на 2024–2028 годы. В составе — представители госорганов, науки и бизнеса (без публичного списка персоналий на момент анонса).

Реакция канала — ироничная и точная:

«кого уже позвали в совет? — Нас позвали — как подать заявку? — Они сами вышли)»

Сама механика отбора в совет, как видно из обмена реплик, остаётся неформальной.

Экспортные ограничения США — Кыргызстан в Tier 2

19 января на канал пришла ссылка на новости про дальнейшие экспортные ограничения США на NVIDIA AI-чипы; Кыргызстан попал во второй тариф (Tier 2). В Tier 3 — полный запрет.

«Кыргызстан в tier 2»

«Хотя бы так. В tier 3 — полный запрет»

«Повезло»

Сообщество отнеслось к этому скорее с облегчением, чем с тревогой — ограничения существенно мягче полного запрета и оставляют доступ к большинству массовых GPU.

Стартап-инфраструктура и сравнение с регионом

Dive into Silicon Valley 2025 — ПВТ

Дедлайн заявок: изначально 24 февраля, продлён до 3 марта 2025, 9:00. Pitching Day: 7 марта. Заявка: https://docs.google.com/forms/d/e/1FAIpQLScJXg03fh5bgOMe90BXFjL7jyp1KjbUn1CwuCrmB11EJ9ldBQ/viewform

Двухнедельная программа в Кремниевой долине: визиты в IT-компании, нетворкинг, хакатоны, бизнес-акселерация. Участие открыто для стартаперов, разработчиков и AI-специалистов от 18 лет с гражданством КР. Перелёт оплачивается участником, проживание — ПВТ; визовая поддержка предоставляется.

Unicorn from KG — Draper University Hero Training

Программа: 26 мая — 27 июня 2025, Сан-Матео, США. Дедлайн заявок: 9 апреля 2025, 9:00. Заявка: https://docs.google.com/forms/d/e/1FAIpQLSfJrSwpiBCEpeWplUX-krvl9ZoPOV6HNTWAmtbpk4QMLN99Rg/viewform

5-недельный Hero Training в Draper University. Питч обязательно на английском. Программа подаётся как «следующий уровень» для стартаперов с работающим продуктом.

Исследование экосистемы Центральной Азии — Шамиль Ибрагимов (MIT Legatum Center) — 25 февраля

Где: Инновационный центр, Эркиндик 58А, Бишкек. Время: 17:00. Формат: офлайн, без записи.

Презентация сравнительного анализа инновационных экосистем Кыргызстана, Казахстана и Узбекистана. Ключевые цифры, которые после ивента разошлись по каналу:

«Кыргызстан выделяет на исследования 0,08% ВВП, тогда как Казахстан — 0,16%, Узбекистан — 0,18%. Для сравнения, в США — 3,2%, в Израиле — 6%»

«Количество патентов в Кыргызстане в 2024 году составило всего 39, в то время как в Казахстане — 651, в Узбекистане — 298»

«Недостаток венчурного капитала в Кыргызстане: показатель в 80 раз ниже, чем в Казахстане»

Сравнительный обзор инновационной экосистемы

Страна R&D (% ВВП) Патенты 2024 VC vs КР
Кыргызстан 0,08% 39 базовый
Казахстан 0,16% 651 × 80
Узбекистан 0,18% 298
США (референс) 3,2%
Израиль (референс) 6,0%
R&D как % ВВП — Центральная Азия и референсы
Кыргызстан 0,08% Казахстан 0,16% Узбекистан 0,18% США 3,2% Израиль 6%
Источник: Шамиль Ибрагимов, презентация в Бишкеке 25 февраля. Шкала ≈ 70 px на 1% ВВП.

При этом исследование зафиксировало одно крупное преимущество — высокий Economic Complexity Index Кыргызстана (главный драйвер — текстильная промышленность, потенциал диверсификации). Рекомендации Ибрагимова: региональная интеграция, развитие венчурного капитала, открытые данные, R&D-программы между бизнесом и академией.

Exel Gaming Accelerator — Саудовская Аравия

Дедлайн: до 1 марта 2025, EOD. Заявка: https://exelbymerak.typeform.com/to/MQJtSxuA

Партнёрство StrategEast и Merak Capital: до $150K в кэше + $150K в in-kind услугах для геймдев-стартапов из региона; weekly менторство, юридическая / HR / маркетинговая поддержка, нетворкинг с глобальными инвесторами и паблишерами.

CASC Forum — Central Asia Startup CUP

Когда: 24–25 апреля 2025. Где: Технопарк, Бишкек. Сайт: https://startupcup.asia/. Билеты: https://ticket.kg/event/central-asia-startup-cup-2025 (1 500 сом до 1 апреля). Заявка на Startup Battle: https://app.virtualaccelerate.com/application-forms/EKJKB5JW

Региональная стартап-площадка: выступления, панельные дискуссии, мастер-классы, нетворкинг с инвесторами; Аллея Стартапов и Startup Battle.

Образование и подготовка кадров

Грантовая программа AI Academy + ПВТ + КАРПОУ — Data Science

Курс: 9 месяцев бесплатного обучения по гранту. Грантовых мест: 30. Дедлайн заявок: 24 января 2025. Сайт: https://aiacademy.my/datasciencegrant

Самая массовая грантовая инициатива на канал в Q1.

EPAM Data Analytics Engineering — бесплатный онлайн-курс

Старт: март 2025. Регистрация: https://campus.epam.com/en/training/4452

Бесплатный курс EPAM специально для кыргызстанцев — заметно расширяет сегмент бесплатного DE/DA-обучения для местного рынка.

Буткемп КГТУ по основам аналитики данных

Когда: 24 февраля — 7 марта 2025, по будням 14:00–17:00. Формат: 30 ч офлайн + 6 ч онлайн. Уровень: начинающий. Дедлайн заявок: 17 февраля → продлён до 21 февраля. Регистрация: https://forms.gle/6f3uHuL73RziMFrT6

Курс ведут эксперты КГТУ по программе специалистов из Финляндии. Стек: Excel, PowerBI, Orange, Jupyter Notebook. Обучение на русском.

Technovation Girls Challenge

Регистрация: https://technovationchallenge.org/. Чат для менторов: https://t.me/+P48olWFHtAI2ZTUy

Глобальная бесплатная STEM-программа для девочек 8–18 лет. Команды выбирают социальную проблему и разрабатывают цифровое решение (мобильное приложение или AI-проект). Канал использовался как точка набора менторов.

IUCA Tokmok — стратегическая сессия по реформе IT-факультета

В январе вице-президент Международного университета в Центральной Азии (МУЦА, Токмок) обратился к каналу с приглашением экспертов на стратегическую сессию по проектированию программы обучения студентов IT-факультета. Гостевой эксперт — Максим Осовский (основатель Школы графических методов мышления, методологические семинары П. Г. Щедровицкого). Заявленный повод:

«Мне печально, что у нас всё также: список предметов на семестр, лекция-семинар-лабораторная. Кажется, что пора уже перейти к проектному обучению, хакатонам, использовать возможности онлайн-курсов и ИИ»

Один из немногих публичных квартальных примеров, когда вуз обращается напрямую к индустриальному AI-сообществу за обновлением программы.

События и митапы

Дата-завтрак — 17 января, ОлолоПланета

Где: ОлолоПланета, ул. Юнусалиева 80. Время: 10:00–12:00. Соорганизаторы: Deep Tech Community + AI Academy.

Регулярный полуформальный формат сообщества — кофе, нетворкинг, обмен идеями, без программы.

Дата-завтрак — 15 февраля, Институт технологий Альфа

Где: Институт технологий Альфа, Бишкек. Время: 10:00–12:00.

Темы — магистерская программа по мехатронике и робототехнике, AI / IT / Deep Tech, интерактивная игра для нетворкинга.

TechSummit Osh 2025 — 6 апреля, Ош

Дедлайн заявок от спикеров: 28 февраля. Заявка: https://docs.google.com/forms/d/e/1FAIpQLScy7naG0Vr1bKCCU766uJfqr0A0EvNepsQEHlHlSJPccZBPXQ/viewform

Мероприятие для развития IT-сектора в южных регионах, целевая аудитория — школьники, студенты, начинающие в IT. Доклады принимались на русском и кыргызском. Мероприятие некоммерческое — спикеры покрывают свои расходы на поездку.

AI City hackathon — Ош (январь)

В январе на канал приходили напоминания о хакатоне AI City в Оше с продлением дедлайна. Параллельный сюжет — кто-то из участников отметил «прошёл регистрацию 3 раза».

GameCon Central Asia 2025 — 14–15 марта

Где: OloloPlanet, Бишкек. Вход: свободный.

Ключевое событие региональной игровой индустрии: выставка цифрового искусства под кураторством Торстена Видеманна (директор фестиваля A MAZE, Берлин), объявление победителей GameJam 2025, выступления экспертов из Франции, Германии, Кыргызстана, Казахстана и Узбекистана.

NVIDIA GTC 2025 — 17–21 марта, онлайн бесплатно

Регистрация: https://www.nvidia.com/gtc/?ncid=gtc-nvww6p98. Keynote от Дженсена Хуанга: 18 марта.

Прямое приглашение от регионального директора NVIDIA в канал — 1000+ сессий, технические мастер-классы, тренинги, сертификации, темы от робототехники до квантовых вычислений. Бесплатное онлайн-участие.

ИИ-конференция Посольства Германии — март

Анонс пришёл через Instagram (https://www.instagram.com/p/DHDQenzoBL5/). Дипломатический канал — площадка для AI-программ, что встречается в местном контексте редко.

Открытые исследования и инструменты

В течение квартала на канал пришло несколько технических анонсов из глобальной open-source сцены, которые задали технический контекст:

  • Foundations of Large Language Models (https://arxiv.org/pdf/2501.09223) — бесплатная книга на 230+ страниц: предтренировка, генеративные модели, промпт-инжиниринг, методы оптимизации LLM. Канал обсуждал её как точку входа для разработчиков и студентов.
  • Nomic Embed Text V2 MoE — мультиязычные эмбеддинги в открытом доступе, MoE-архитектура, 300M активных параметров, поддержка 100+ языков, Matryoshka-обучение (можно обрезать эмбеддинги до 256). Не все языки СНГ покрыты одинаково — для кыргызского качество ещё нужно мерить.
  • Maskara.ai — локальный продукт от участника канала: AI-агент для prompt engineering, fine-tuned на качественных промптах, автогенерация few-shot и chain of thought для GPT и O1.
  • Deconstructor (https://deconstructor.ayush.digital/) — морфологический анализатор, обсуждался в канале с осторожным скепсисом:

«судя по универсальности, yet another llm-based-toy»

В ответ один из участников сделал собственный embedding-эксперимент, тренируя unsupervised на маленьком датасете — без полноценного морф-анализа, но как «прикольный» промежуточный результат.

Рынок труда и культура канала

Q1 2025 — квартал, в котором правило «вакансия без вилки и стека удаляется» применяется публично и без исключений.

«Нет вилки, и стека»

«Ваше объявление в скором времени удалят админы, у вас нарушение в виде того что, у вас нет Стека и Вилки»

Один из английскоязычных участников оставил мем, который потом возвращался в чате:

«Wilka how much?»

ML Engineer (Middle / Middle+) — Nevodevs

Где: информация на devkg.com/ru/jobs/ml-engineer-middle-middle-nevodevs-16808.

Вакансия размещена 16 января с прямой ссылкой на devkg — стандартный канал для большинства публичных вакансий в местной IT-сцене.

Аналитик планирования — Ordo Trade

Формат: офис, Бишкек. Зарплата: от 87 тыс. сом (≈ $990) / месяц. Источник: devkg.com/tg/j-16855.

Не AI-роль строго, но размещалась в канале как смежная.

LetsGather (UK + Бишкек) — AI engineer pre-funding

Формат: SaaS Idea / Challenge management platform. Стек: task-specific агенты с langchain, pgvector, разные модели (не финализировано). Локация: Bishkek / London.

Один из квартальных примеров стартапа с распределённой командой, где Бишкек — точка набора AI-инженерных кадров.

Запрос на специалиста по ИИ для АГРО-компании

В феврале на канал пришёл запрос на специалиста по ИИ (консультант или контракт) от агрокомпании с штатом более 650 человек: автоматизация операционных, не производственных процессов. Запрос фиксирует, что за пределами IT-сектора растёт интерес к точечной AI-консультации.

Сводная таблица вакансий Q1

Роль / компания Формат Вилка
ML Engineer (Middle/Middle+) — Nevodevs не указан по devkg
Аналитик планирования — Ordo Trade офис, Бишкек от 87 тыс. сом / $990
AI Engineer pre-funding — LetsGather (UK + Бишкек) гибрид обсуждается
AI Specialist (АГРО, 650+ сотрудников) контракт / консультант обсуждается

Channel культурные эпизоды

В чате прошли два показательных мини-эпизода. Первый — попытка вписать в канал вакансию мобильного разработчика без вилки и стека:

«Просто писали что низя но да лан»

Через сутки пост был удалён. Второй — отклик на терминологическую путаницу:

«оказывается KG = Knowledge Graphs»

Канал ведёт активную модерацию контекста: AI / ML / DS / DA / DE — да, мобильная разработка без AI — нет.

Открытые вопросы

  1. Кто превратит KyrgyzBert / KyrgyzLLM-bench / Awesome Kyrgyz NLP в координированную программу с дорожной картой и регулярной оценкой, а не в набор индивидуальных репозиториев?
  2. Как Национальный совет по развитию ИИ будет публично коммуницировать состав, повестку и решения — и пройдёт ли точка входа в него через профильное сообщество, а не через приглашения «от себя»?
  3. Что произойдёт с рекомендациями Шамиля Ибрагимова (региональная интеграция, R&D 0.16% → выше, открытые данные, венчурный капитал) после офлайн-презентации без публичной записи и материалов — как это передавать в политическую повестку?
  4. Сможет ли локальная сцена AI Safety / Alignment удержать ритм публичных событий после январских «Первых шагов» — или эта тема снова уйдёт в тень из-за отсутствия точек входа?
  5. Какой публичный механизм валидации найдёт сообщество для зарплатных коридоров — кроме мема «Wilka how much?» и удаления вакансий без вилки?
Get In Touch

Talk to KG Labs

Research support, expert input, grant co-applications, or a first conversation — reach us directly.