Що таке «інформаційний канібалізм»? В чому суть та які наслідки цього явища? 

 

      Ми вже встигли звикнути, що штучний інтелект (ШІ) оточує нас всюди. Хто сьогодні тільки не використовує ШІ: учні, студенти, викладачі, лікарі й не тільки. Ви читаєте новини, користуєтеся онлайн-енциклопедіями, переглядаєте соціальні мережі — і навіть не підозрюєте, що частина цієї інформації є результатом роботи штучного інтелекту, так званих великих мовних моделей (LLM). Але чи зможемо ми довіряти такій інформації? Виявляється, що вже сьогодні у ШІ є серйозні проблеми, які несуть загрозу людству. Але які?

 

 

Поява синтетичного контенту

      На початкових етапах ШІ використовують лише контент, який створений людиною. Але виявляється, що вже сьогодні цієї інформації не вистачає. На жаль, вона має кінцеву кількість. Ось чому ШІ починає займатися «інформаційним канібалізмом». Інформаційний канібалізм — це явище, при якому ШІ навчається на даних, створених іншими ШІ.

 

Як це відбувається?

      Для розуміння обсягу проблеми уявіть собі наступний процес. Наприклад,  LLM (великі мовні моделі) можуть генерувати тексти для освітніх платформ. Спочатку вони базуються на перевірених джерелах, але з часом починають до цього додавати й згенеровані матеріали, які сприймають як нові. Тобто таким чином запускається цикл самопосилення. Але коли ШІ переходить на навчання на даних з відкритих джерел інтернету, то це  призводить до «сумних» наслідків.

 

Але що може призвести до краху ШІ?

      Ви будете здивовані, але інформаційний канібалізм поступово є причиною появи так званого  «синтетичного» контенту, який може містити спотворені факти та навіть помилки. Цей процес дуже нагадує старовинну гру «зламаний телефон», де інформація на кожному етапі змінюється і втрачає первісний зміст.

  

 

 

      Яскравим прикладом цього явища став експеримент із мовною моделлю, якій було доручено генерувати тексти в стилі Вікіпедії. На початкових етапах модель створювала доволі якісний контент. Проте на наступних ітераціях, коли вона почала навчатися на даних, згенерованих її попередніми версіями, якість текстів значно погіршилася.

      На дев'ятій ітерації стаття про церковні собори перетворилася на безглузде перерахування різних видів хвостів зайців: «У соборі Святого Іоанна в Лондоні мешкають найбільші у світі популяції чорнохвостих зайців, білохвостих зайців, синіх хвостатих зайців, червонохвостих зайців...».

      Це демонструє, як швидко навчання на власних даних може призвести до втрати сенсу.

 

Звідки беруться помилки в синтетичному тексті?

  • По-перше, згадаємо, що LLM генерують нові дані на основі великих обсягів тексту, при цьому вона застосовує складні алгоритми для відбору та трансформації цих даних. А от саме трансформація даних сприяє втраті деяких аспектів точності.
  • По-друге, частенько мовні моделі використовують найімовірніші поєднання і послідовність слів. А як бути з інформацією, яка згадується при навчанні LLM рідко? Що як мовні моделі про неї «забувають» і використовують здебільшого просто популярні слова.

      У такий спосіб LLM може навчатися на помилкових текстах, щоб з часом створити нові тексти, в яких ці помилки будуть додаватися до попередніх помилок.

  • По-третє, виявляється, що LLM може вигадувати факти, інакше кажучи, генерувати фейкову інформацію. Ця «особливість» обумовлена її архітектурою, що дозволяє нейронній мережі займатися творчістю.

      В цьому разі, якщо навіть ШІ використовує надійні джерела, то це не гарантує повну безпомилковість її відповідей.

 

 

Чи є розв’язання цієї проблеми?

      Для цього ШІ потрібен постійний доступ до «свіжих» даних, який буде розширюватися людьми. Так, як люди оновлюють знання з нових книг і досліджень, так і ШІ має навчатися  на текстах, що постійно оновлюються.

      Та головне — це контроль. Штучний інтелект, який навчається без перевірки, нагадує велосипед без гальм. Тому потрібні механізми, які дозволять порівнювати синтетичний контент із надійними джерелами, перевіряти посилання, які використовують мовні моделі. Це допоможе уникнути перекручень і помилок, які знижують довіру до нових технологій.

 

 

Є надія

      Схожі явища ми вже спостерігали в інших сферах, зокрема в історії інтернету. Коли інтернет почав стрімко розвиватися в 1990-х роках, його контент був відносно якісним і обмеженим. Однак зі зростанням кількості користувачів і сайтів якість інформації стрімко стала падати. Згадайте, як пошукові системи на початку 2000-х стали переповнені посиланнями на низькоякісні сайти, а контент-ферми заполонили інтернет, намагаючись маніпулювати алгоритмами. Пошук потрібної інформації став складним і вимагав зусиль для фільтрації непотрібних даних.

      Як інтернет навчився фільтрувати й покращувати якість даних через алгоритми пошуку і модерацію, так і ШІ повинен буде впровадити суворі заходи контролю за даними, щоб уникнути деградації якості інформації. В іншому разі, як і у випадку з інтернетом, він ризикує стати джерелом дезінформації та знизити довіру користувачів.

 

 

За матеріалами:

 https://huxley.media/uk/informacijnij-kanibalizm-chomu-shi-kolapsujut-i-vidajut-vidvertu-nisenitnicju/

https://www.nature.com/articles/d41586-024-02420-7

https://ua.news/ua/technologies/kak-rabotaet-yskusstvennyj-yntellekt-y-pochemu-on-generyruet-fejky

Гребенюк Артем

 

 

Популярні статті

Читати далі