Нещодавно з’явилася новина про те, що Мінцифра та Київстар створять першу українську велику мовну модель. Хтось реагує оптимістично, а когось не полишає скептицизм: для багатьох у цій історії накопичилося чимало нерозкритих питань. Навіщо Україні власний штучний інтелект? Які він матиме функції? Та чи взагалі «на часі» його створення? У цій статті поговоримо про те, чи стане ШІ від Мінцифри, тим майбутнім, на яке ми заслуговуємо. 

     

      Про плани на розробку української великої мовної моделі (LLM) стало відомо ще навесні. Це змусило більшість українців лише посміятися — мовляв, бачили ми цю вашу діджиталізацію, зараз тільки цим і займатися. Однак такий скептичний розклад не похитнув впевненості наших цифрових реформаторів. Вітчизняній LLM бути — лишалося знайти великого міжнародного партнера з достатньою технічною базою і фінансами на реалізацію.

 

 

      Ним і став Київстар. Чи чекали ми на щось помпезніше? Точно ні. Натомість Київстар вже має доволі глибоку експертизу в ШІ й зацікавлений у впровадженні сучасних технологій, до того ж може користуватися досвідом материнської компанії VEON, яка вже займалася національними AI-проєктами.

  

Насмішка над громадянами чи надійний державний помічник: що у світі говорять про «суверенний» ШІ?

 

      Більшість відомих LLM — американські, тому ми звикли сприймати ШІ, як щось, що йде від tech-бізнесу, а не від держави. У нашому випадку все навпаки. На жаль, ми не маємо ані прецеденту створення саме української LLM, ані великих компаній, що спрямований займаються такою розробкою.

      Особливість національних моделей у тому, що вони дозволяють середньостатистичним країнам ефективно використовувати ШІ відповідно до місцевих реалій. Зокрема це питання на основі кейсів із різних країн детально дослідили в Українському католицькому університеті та дійшли висновків, що національні LLM здатні слугувати рушієм для розвитку освіти, електронного врядування, медицини, сільського господарства тощо. Також вони можуть використовуватися для безпеки та оборони, що, погодьтеся, особливо цікаво для нас у час війни.

 

 

А нам потрібен свій ШІ?

      Однозначно. Є безліч галузей, які могли б розвиватися спільно з ШІ-рішеннями: від цифрових помічників у держорганах до особистих медичних рекомендацій. А вітчизняний бізнес зможе взяти цю LLM, як основу для власних проєктів, що лише зміцнить позицію ШІ в Україні.

      Не слід також забувати, що крок розробки та впровадження власної LLM не тільки долучить нас до «ШІ-клубу», а й дозволить подолати цифровий розрив: модель, на відміну від відомих аналогів, відмінно розумітиме нашу мову, культурні особливості, термінологію й нюанси законодавства та інші, суто українські речі.

 

Як зробити з ШІ справжнього українця?

      Вишиванку на LLM не вдягнеш і паспорт їй не видаси. Щоб проникнути в саму суть складної меланхолійної української душі, наш ШІ має розмовляти українською. І не просто розмовляти, а зрозуміти її досконало — не тільки літературну, а й живу: з усім діалектизмом, термінами, фразеологізмами й, звісно ж, мемами.

 

 

      Для цього необхідно навчити LLM на величезному обсязі якісного українського тексту. На озброєння збираються взяти не тільки якісь готові датасети, такі як UA-GEC, NER-UK чи «Малюк», а й специфічні тексти, що зберігаються в різних архівах. Також в рамках проєкту розробники готові прийняти донацію у вигляді особисто створених робіт — усі дані для навчання будуть анонімізовані. Загалом ніякої чутливої інформації в ШІ не «вливатимуть», тож обіцяють, що жоден держреєстр не постраждає.

      Разом з тим, українська модель матиме «погляди» відповідні нашій історії, культурним особливостям і соціально-політичній ситуації, тож без вагань відповідатиме на питання «чий Крим?»

 

На яких ресурсах засновуватиметься українська LLM?

      На жаль, Україна поки що не має достатньо обчислювальних можливостей для побудови LLM з нуля. Тож планують брати певну open-source модель і доучувати її на українських даних, тобто проводити fine-tuning. Через нестачу GPU-чипів інфраструктуру орендуватимуть у хмарних провайдерів, але водночас збільшуватимуть і власну.

      Фінансування першого етапу розробок бере на себе Київстар, оцінюючи цей проєкт у 2 мільйони доларів — розумна сума за такий масштаб.

 

 

Який функціонал здобуде вітчизняний ШІ?

      На створення першої версії національної LLM піде близько 9 місяців, далі — бета-тестування і безпосереднє використання моделі державою. Мінцифри анонсує, що розробка буде використана для впровадження AI-асистента в Дії, інструментів для перекладу й аналізу європейського законодавства, створення особистих освітніх траєкторій в додатку Мрія для учнів та інших застосунків, які спростять процеси в різних держсферах для громадян.

 

Інновація чи інсценізація?

      Попри звичний хайп зі сторони Мінцифри й критичне ставлення більшості українців до питання створення національної LLM, неможливо не погодитись — поки що сама ініціатива видається доволі цікавою. Бо реалізація та фінансування розробок відбувається коштом Київстара, а не бюджетним, ми цілком можемо очікувати на відповідальний і якісний підхід: бенефіти для самої компанії очевидні.

 

 

      Звісно ж, наш ШІ не зрівняється за рівнем з продуктами OpenAI, Google чи X, проте шляхом більш конкретизованого налаштування зможе відкрити нове бачення у виконанні певних локальних українських завдань. Побачимо, чи вийде з цього щось гідне.

 

Василина Яблонь

 

За матеріалами:

https://epravda.com.ua/tehnologiji/shi-z-ukrajinskim-akcentom-shcho-stvoryuyut-mincifra-ta-kijivstar-i-navishcho-ce-vsim-nam-808668/

https://thedigital.gov.ua/news/ukraina-pochinae-rozrobku-natsionalnoi-movnoi-modeli-mintsifra-ta-kiivstar-pidpisali-memorandum-pro-spivpratsyu

 

Популярні статті

Читати далі