The Community Signal — Q1 2025
AI-сообщество Кыргызстана. январь — март 2025.
Первый квартал 2025 года — это период, когда в @ai_kgz одновременно начали оформляться сразу несколько локальных AI-инфраструктур. На фоне громких глобальных новостей — экспортных ограничений США (Кыргызстан попал во второй тарифный «тир»), создания Национального совета по развитию ИИ и старта американской программы «Dive into Silicon Valley» — внутри сообщества пошёл другой, тихий процесс: коллекции токенизаторов, пробные модели, открытые бенчмарки и регулярные технические доклады по четвергам.
Тон квартала — взрослый и деловой. В чате жёстко применяется правило «вакансия без вилки и стека удаляется» (одна из английскоязычных реплик месяца — «Wilka how much?»), участники дискутируют о ревью на ICCV, про исследовательский подход против «yet another LLM-based toy», и одновременно делятся практическим — где взять GPU, как работают эмбеддинги Nomic V2 MoE на 100+ языках. Это квартал, когда сообщество перестаёт быть только про митапы и начинает быть про инструменты.
Кыргызский язык в открытом коде
Главный сюжет квартала — оформление того, что раньше существовало как разрозненные эксперименты, в публичную, открытую инфраструктуру для кыргызского языка.
«оказывается KG = Knowledge Graphs»
Шутка одного из участников от 30 января — но за ней стоит реальная путаница: Kyrgyz NLP в открытых каталогах действительно теряется среди Knowledge Graph-проектов. Q1 2025 показывает, как это меняется.
TTS и STT от The Cramer Project
В январе на канал пришли ссылки на демонстрации AkylAI TTS Small и Kyrgyz STT Small на HuggingFace Spaces — два рабочих демо речевых моделей. На вопрос о задержке в инференсе:
«да, он на CPU крутится. ты можешь себе на gpu перекинуть. Там весь код и модель открыта»
Открытость кода при «домашнем» демо — характерный паттерн квартала: всё, что появляется, идёт сразу в открытый доступ, даже если тяжёлый инференс держит CPU.
Akylai LLM против deepseek
В феврале участники сравнивали ответы Akylai LLM (продукт того же Cramer Project) с deepseek на запросах с кыргызским контекстом. Реакция канала:
«Deepseek сильно хуже нашего Акылай»
«Чему мы рады»
Сравнения не сопровождались формальной оценкой, но факт того, что местная модель удерживается в публичной дискуссии рядом с ведущими открытыми LLM, — сам по себе сигнал.
Коллекция кыргызских токенизаторов
24 февраля на канал вышла коллекция кыргызских токенизаторов на HuggingFace: BPE и Unigram, оптимизированные для моделей вроде T5 и BERT. Авторская позиция:
«обучал только на кыргызских текстах поэтому с другими языками они не очень хорошо работают»
Узкая фокусировка — намеренный выбор, плата за качество на основной задаче.
Ссылки: https://huggingface.co/collections/metinovadilet/kyrgyz-tokenizers-collection-67bc7511855a6b996b94286c
KyrgyzBert — обучение MLM с нуля
26 февраля вышла KyrgyzBert: облегчённая архитектура (6 слоёв, 8 голов внимания, скрытый размер 512), обучение Masked Language Modeling с нуля, начиная с собственного кыргызского токенизатора.
«Тренировка велась на Masked Language Modeling (MLM)»
«Сейчас это просто MLM модель, нужно же будет дообучить под эти задачи и потом протестировать»
В обсуждении участники сразу обозначили правильный путь оценки: extrinsic evaluation на текстовой классификации и частеречной разметке, поскольку перплексия для MLM как метрика не покатит. Параллельно автор выложил FastText n-gram embeddings для кыргызского и анонсировал улучшенную версию KyrgyzBert «ближе к апрелю».
Ссылки: https://huggingface.co/spaces/metinovadilet/KyrgyzBert · https://huggingface.co/metinovadilet/KyrgyzBert
Awesome Kyrgyz NLP
В обсуждении датасетов всплыл проект github.com/alexeyev/awesome-kyrgyz-nlp — поддерживаемый список существующих кыргызских датасетов; участники канала использовали его как отправную точку при анализе предметной области (KyrgyzNLP) с опорой на публикации сообщества TurkLang.
Что осталось пробелом
Канал зафиксировал несколько технических пробелов: надёжной intrinsic evaluation для MLM-моделей всё ещё нет; датасетов для extrinsic evaluation на классификации и POS-тегировании не хватает; не закрыт вопрос о морфологически мотивированной сегментации (SentencePiece используется как прокси, но не полное решение).
AI Safety и AI Alignment как точка входа
Q1 2025 — первый квартал, в котором тема AI Safety / AI Alignment появляется в канале не как академическая абстракция, а как ивент с конкретными организаторами и спикерами.
«Первые шаги в AI Safety» — 10–11 января, онлайн
Площадка: Google Meet, ссылка через Telegram-чат «Минимизаторы скрепок» (https://t.me/miniclippy). Регистрация не требовалась.
Двухдневная мини-конференция русскоязычной AI Safety / Alignment-сцены: технический и концептуальный AI Safety, карьерные треки. Среди заявленных AMA-сессий — Миша Самин (прошёл в MIRI, институт Элиезера Юдковского) и Андрей Крутиков (Noeon Research, японский стартап с не-нейросетевым подходом к ИИ); Надя Петрова представляла Lunapark — HR-практику, эксклюзивно работающую с переходом в AI Safety / Alignment.
Сообщение, которое ставит масштаб этой темы:
«процент людей работающих над безопасностью ИИ составляет навскидку меньше 0.1% от занятых в работе с ИИ в целом»
Сам канал зафиксировал, что широких «точек входа» в AI Alignment в русскоязычном пространстве почти нет; этот ивент — попытка такие точки создавать.
Регулярные технические митапы — MadML Talks
Mad Devs запустила в Q1 устойчивый ритм еженедельных онлайн-докладов на meet.google.com/ryk-irww-moz, четверги в 18:00 по Бишкеку. Темы и спикеры:
30 января — Трансформеры и контекст в 4 млн токенов
Доклад: «Трансформеры: как увеличить контекстное окно и ничего не забыть». Memory Layers, благодаря которым Hailuo AI обучили модель с контекстным окном в 4 млн токенов; архитектура Titans от Microsoft.
13 февраля — Reasoning-модели и DeepSeek
Доклад про модели рассуждений: что такое ризонинг, как он отличается от традиционных LLM, как обучают на примере DeepSeek, и провокационный вопрос «можно ли обучить модель ризонинга за $50».
27 февраля — LLaDA, диффузионный подход к LLM
Доклад: «LLM: китайский прорыв с LLaDA». Диффузионный процесс «расшумления» текста вместо традиционного авторегрессионного подхода; сравнение LLaDA с LLaMA и GPT-4o, файнтюнинг, масштабирование.
13 марта — Хранилища данных и Big Data
Доклад: «Хранилища данных: от основ до Big Data». Реляционные vs колоночные БД, распределённые хранилища, области применения.
27 марта — XLNet против BERT
Доклад: XLNet как альтернатива BERT с авторегрессивным подходом, сравнение в задачах NLP.
Это первый квартал, в котором локальная компания держит еженедельный публичный технический эфир по AI без перерывов в течение всего квартала.
Государство и регулирование
Национальный совет по развитию ИИ
28 января глава кабмина Адылбек Касымалиев подписал постановление о создании Национального совета по вопросам развития искусственного интеллекта. Задачи совета — создавать AI-проекты, развивать науку и образование, укреплять международные позиции страны; работа идёт в рамках концепции цифровой трансформации на 2024–2028 годы. В составе — представители госорганов, науки и бизнеса (без публичного списка персоналий на момент анонса).
Реакция канала — ироничная и точная:
«кого уже позвали в совет? — Нас позвали — как подать заявку? — Они сами вышли)»
Сама механика отбора в совет, как видно из обмена реплик, остаётся неформальной.
Экспортные ограничения США — Кыргызстан в Tier 2
19 января на канал пришла ссылка на новости про дальнейшие экспортные ограничения США на NVIDIA AI-чипы; Кыргызстан попал во второй тариф (Tier 2). В Tier 3 — полный запрет.
«Кыргызстан в tier 2»
«Хотя бы так. В tier 3 — полный запрет»
«Повезло»
Сообщество отнеслось к этому скорее с облегчением, чем с тревогой — ограничения существенно мягче полного запрета и оставляют доступ к большинству массовых GPU.
Стартап-инфраструктура и сравнение с регионом
Dive into Silicon Valley 2025 — ПВТ
Дедлайн заявок: изначально 24 февраля, продлён до 3 марта 2025, 9:00. Pitching Day: 7 марта. Заявка: https://docs.google.com/forms/d/e/1FAIpQLScJXg03fh5bgOMe90BXFjL7jyp1KjbUn1CwuCrmB11EJ9ldBQ/viewform
Двухнедельная программа в Кремниевой долине: визиты в IT-компании, нетворкинг, хакатоны, бизнес-акселерация. Участие открыто для стартаперов, разработчиков и AI-специалистов от 18 лет с гражданством КР. Перелёт оплачивается участником, проживание — ПВТ; визовая поддержка предоставляется.
Unicorn from KG — Draper University Hero Training
Программа: 26 мая — 27 июня 2025, Сан-Матео, США. Дедлайн заявок: 9 апреля 2025, 9:00. Заявка: https://docs.google.com/forms/d/e/1FAIpQLSfJrSwpiBCEpeWplUX-krvl9ZoPOV6HNTWAmtbpk4QMLN99Rg/viewform
5-недельный Hero Training в Draper University. Питч обязательно на английском. Программа подаётся как «следующий уровень» для стартаперов с работающим продуктом.
Исследование экосистемы Центральной Азии — Шамиль Ибрагимов (MIT Legatum Center) — 25 февраля
Где: Инновационный центр, Эркиндик 58А, Бишкек. Время: 17:00. Формат: офлайн, без записи.
Презентация сравнительного анализа инновационных экосистем Кыргызстана, Казахстана и Узбекистана. Ключевые цифры, которые после ивента разошлись по каналу:
«Кыргызстан выделяет на исследования 0,08% ВВП, тогда как Казахстан — 0,16%, Узбекистан — 0,18%. Для сравнения, в США — 3,2%, в Израиле — 6%»
«Количество патентов в Кыргызстане в 2024 году составило всего 39, в то время как в Казахстане — 651, в Узбекистане — 298»
«Недостаток венчурного капитала в Кыргызстане: показатель в 80 раз ниже, чем в Казахстане»
Сравнительный обзор инновационной экосистемы
| Страна | R&D (% ВВП) | Патенты 2024 | VC vs КР |
|---|---|---|---|
| Кыргызстан | 0,08% | 39 | базовый |
| Казахстан | 0,16% | 651 | × 80 |
| Узбекистан | 0,18% | 298 | — |
| США (референс) | 3,2% | — | — |
| Израиль (референс) | 6,0% | — | — |
При этом исследование зафиксировало одно крупное преимущество — высокий Economic Complexity Index Кыргызстана (главный драйвер — текстильная промышленность, потенциал диверсификации). Рекомендации Ибрагимова: региональная интеграция, развитие венчурного капитала, открытые данные, R&D-программы между бизнесом и академией.
Exel Gaming Accelerator — Саудовская Аравия
Дедлайн: до 1 марта 2025, EOD. Заявка: https://exelbymerak.typeform.com/to/MQJtSxuA
Партнёрство StrategEast и Merak Capital: до $150K в кэше + $150K в in-kind услугах для геймдев-стартапов из региона; weekly менторство, юридическая / HR / маркетинговая поддержка, нетворкинг с глобальными инвесторами и паблишерами.
CASC Forum — Central Asia Startup CUP
Когда: 24–25 апреля 2025. Где: Технопарк, Бишкек. Сайт: https://startupcup.asia/. Билеты: https://ticket.kg/event/central-asia-startup-cup-2025 (1 500 сом до 1 апреля). Заявка на Startup Battle: https://app.virtualaccelerate.com/application-forms/EKJKB5JW
Региональная стартап-площадка: выступления, панельные дискуссии, мастер-классы, нетворкинг с инвесторами; Аллея Стартапов и Startup Battle.
Образование и подготовка кадров
Грантовая программа AI Academy + ПВТ + КАРПОУ — Data Science
Курс: 9 месяцев бесплатного обучения по гранту. Грантовых мест: 30. Дедлайн заявок: 24 января 2025. Сайт: https://aiacademy.my/datasciencegrant
Самая массовая грантовая инициатива на канал в Q1.
EPAM Data Analytics Engineering — бесплатный онлайн-курс
Старт: март 2025. Регистрация: https://campus.epam.com/en/training/4452
Бесплатный курс EPAM специально для кыргызстанцев — заметно расширяет сегмент бесплатного DE/DA-обучения для местного рынка.
Буткемп КГТУ по основам аналитики данных
Когда: 24 февраля — 7 марта 2025, по будням 14:00–17:00. Формат: 30 ч офлайн + 6 ч онлайн. Уровень: начинающий. Дедлайн заявок: 17 февраля → продлён до 21 февраля. Регистрация: https://forms.gle/6f3uHuL73RziMFrT6
Курс ведут эксперты КГТУ по программе специалистов из Финляндии. Стек: Excel, PowerBI, Orange, Jupyter Notebook. Обучение на русском.
Technovation Girls Challenge
Регистрация: https://technovationchallenge.org/. Чат для менторов: https://t.me/+P48olWFHtAI2ZTUy
Глобальная бесплатная STEM-программа для девочек 8–18 лет. Команды выбирают социальную проблему и разрабатывают цифровое решение (мобильное приложение или AI-проект). Канал использовался как точка набора менторов.
IUCA Tokmok — стратегическая сессия по реформе IT-факультета
В январе вице-президент Международного университета в Центральной Азии (МУЦА, Токмок) обратился к каналу с приглашением экспертов на стратегическую сессию по проектированию программы обучения студентов IT-факультета. Гостевой эксперт — Максим Осовский (основатель Школы графических методов мышления, методологические семинары П. Г. Щедровицкого). Заявленный повод:
«Мне печально, что у нас всё также: список предметов на семестр, лекция-семинар-лабораторная. Кажется, что пора уже перейти к проектному обучению, хакатонам, использовать возможности онлайн-курсов и ИИ»
Один из немногих публичных квартальных примеров, когда вуз обращается напрямую к индустриальному AI-сообществу за обновлением программы.
События и митапы
Дата-завтрак — 17 января, ОлолоПланета
Где: ОлолоПланета, ул. Юнусалиева 80. Время: 10:00–12:00. Соорганизаторы: Deep Tech Community + AI Academy.
Регулярный полуформальный формат сообщества — кофе, нетворкинг, обмен идеями, без программы.
Дата-завтрак — 15 февраля, Институт технологий Альфа
Где: Институт технологий Альфа, Бишкек. Время: 10:00–12:00.
Темы — магистерская программа по мехатронике и робототехнике, AI / IT / Deep Tech, интерактивная игра для нетворкинга.
TechSummit Osh 2025 — 6 апреля, Ош
Дедлайн заявок от спикеров: 28 февраля. Заявка: https://docs.google.com/forms/d/e/1FAIpQLScy7naG0Vr1bKCCU766uJfqr0A0EvNepsQEHlHlSJPccZBPXQ/viewform
Мероприятие для развития IT-сектора в южных регионах, целевая аудитория — школьники, студенты, начинающие в IT. Доклады принимались на русском и кыргызском. Мероприятие некоммерческое — спикеры покрывают свои расходы на поездку.
AI City hackathon — Ош (январь)
В январе на канал приходили напоминания о хакатоне AI City в Оше с продлением дедлайна. Параллельный сюжет — кто-то из участников отметил «прошёл регистрацию 3 раза».
GameCon Central Asia 2025 — 14–15 марта
Где: OloloPlanet, Бишкек. Вход: свободный.
Ключевое событие региональной игровой индустрии: выставка цифрового искусства под кураторством Торстена Видеманна (директор фестиваля A MAZE, Берлин), объявление победителей GameJam 2025, выступления экспертов из Франции, Германии, Кыргызстана, Казахстана и Узбекистана.
NVIDIA GTC 2025 — 17–21 марта, онлайн бесплатно
Регистрация: https://www.nvidia.com/gtc/?ncid=gtc-nvww6p98. Keynote от Дженсена Хуанга: 18 марта.
Прямое приглашение от регионального директора NVIDIA в канал — 1000+ сессий, технические мастер-классы, тренинги, сертификации, темы от робототехники до квантовых вычислений. Бесплатное онлайн-участие.
ИИ-конференция Посольства Германии — март
Анонс пришёл через Instagram (https://www.instagram.com/p/DHDQenzoBL5/). Дипломатический канал — площадка для AI-программ, что встречается в местном контексте редко.
Открытые исследования и инструменты
В течение квартала на канал пришло несколько технических анонсов из глобальной open-source сцены, которые задали технический контекст:
- Foundations of Large Language Models (https://arxiv.org/pdf/2501.09223) — бесплатная книга на 230+ страниц: предтренировка, генеративные модели, промпт-инжиниринг, методы оптимизации LLM. Канал обсуждал её как точку входа для разработчиков и студентов.
- Nomic Embed Text V2 MoE — мультиязычные эмбеддинги в открытом доступе, MoE-архитектура, 300M активных параметров, поддержка 100+ языков, Matryoshka-обучение (можно обрезать эмбеддинги до 256). Не все языки СНГ покрыты одинаково — для кыргызского качество ещё нужно мерить.
- Maskara.ai — локальный продукт от участника канала: AI-агент для prompt engineering, fine-tuned на качественных промптах, автогенерация few-shot и chain of thought для GPT и O1.
- Deconstructor (https://deconstructor.ayush.digital/) — морфологический анализатор, обсуждался в канале с осторожным скепсисом:
«судя по универсальности, yet another llm-based-toy»
В ответ один из участников сделал собственный embedding-эксперимент, тренируя unsupervised на маленьком датасете — без полноценного морф-анализа, но как «прикольный» промежуточный результат.
Рынок труда и культура канала
Q1 2025 — квартал, в котором правило «вакансия без вилки и стека удаляется» применяется публично и без исключений.
«Нет вилки, и стека»
«Ваше объявление в скором времени удалят админы, у вас нарушение в виде того что, у вас нет Стека и Вилки»
Один из английскоязычных участников оставил мем, который потом возвращался в чате:
«Wilka how much?»
ML Engineer (Middle / Middle+) — Nevodevs
Где: информация на devkg.com/ru/jobs/ml-engineer-middle-middle-nevodevs-16808.
Вакансия размещена 16 января с прямой ссылкой на devkg — стандартный канал для большинства публичных вакансий в местной IT-сцене.
Аналитик планирования — Ordo Trade
Формат: офис, Бишкек. Зарплата: от 87 тыс. сом (≈ $990) / месяц. Источник: devkg.com/tg/j-16855.
Не AI-роль строго, но размещалась в канале как смежная.
LetsGather (UK + Бишкек) — AI engineer pre-funding
Формат: SaaS Idea / Challenge management platform. Стек: task-specific агенты с langchain, pgvector, разные модели (не финализировано). Локация: Bishkek / London.
Один из квартальных примеров стартапа с распределённой командой, где Бишкек — точка набора AI-инженерных кадров.
Запрос на специалиста по ИИ для АГРО-компании
В феврале на канал пришёл запрос на специалиста по ИИ (консультант или контракт) от агрокомпании с штатом более 650 человек: автоматизация операционных, не производственных процессов. Запрос фиксирует, что за пределами IT-сектора растёт интерес к точечной AI-консультации.
Сводная таблица вакансий Q1
| Роль / компания | Формат | Вилка |
|---|---|---|
| ML Engineer (Middle/Middle+) — Nevodevs | не указан | по devkg |
| Аналитик планирования — Ordo Trade | офис, Бишкек | от 87 тыс. сом / $990 |
| AI Engineer pre-funding — LetsGather (UK + Бишкек) | гибрид | обсуждается |
| AI Specialist (АГРО, 650+ сотрудников) | контракт / консультант | обсуждается |
Channel культурные эпизоды
В чате прошли два показательных мини-эпизода. Первый — попытка вписать в канал вакансию мобильного разработчика без вилки и стека:
«Просто писали что низя но да лан»
Через сутки пост был удалён. Второй — отклик на терминологическую путаницу:
«оказывается KG = Knowledge Graphs»
Канал ведёт активную модерацию контекста: AI / ML / DS / DA / DE — да, мобильная разработка без AI — нет.
Открытые вопросы
- Кто превратит KyrgyzBert / KyrgyzLLM-bench / Awesome Kyrgyz NLP в координированную программу с дорожной картой и регулярной оценкой, а не в набор индивидуальных репозиториев?
- Как Национальный совет по развитию ИИ будет публично коммуницировать состав, повестку и решения — и пройдёт ли точка входа в него через профильное сообщество, а не через приглашения «от себя»?
- Что произойдёт с рекомендациями Шамиля Ибрагимова (региональная интеграция, R&D 0.16% → выше, открытые данные, венчурный капитал) после офлайн-презентации без публичной записи и материалов — как это передавать в политическую повестку?
- Сможет ли локальная сцена AI Safety / Alignment удержать ритм публичных событий после январских «Первых шагов» — или эта тема снова уйдёт в тень из-за отсутствия точек входа?
- Какой публичный механизм валидации найдёт сообщество для зарплатных коридоров — кроме мема «Wilka how much?» и удаления вакансий без вилки?
