Інфодієта від ШІ: спам, плагіат, перекручені факти

На прикладі скандалу навколо CNET розбираємо, як ШІ може нашкодити і читачам, і самим медіа

Jan 25, 2023

У більшості прогнозів, які ми публікували на початку місяця, штучний інтелект був одним із найважливіших акцентів. Утім, святкувати його пришестя рано.

Медіа все ще не вірять, що ШІ вкраде роботу в журналістів. Але, здається, проблема значно глибша. ШІ — поки що лише інструмент, яким ті, хто женеться виключно за прибутками, можуть поставити під загрозу не лише авторитет медіа в суспільстві, а й їхнє існування.

З чого все почалося?

З твіту Гаеля Бретона та публікації Futurism. У них повідомлялося, що відомий сайт технологічних новин CNET нишком генерує певну частину базових експлейнерів за допомогою ШІ.

Підписують їх безликим автором «CNET Money Staff». І тільки клацнувши на опис, можна дізнатися, що staff — це не джуни чи стажери, а натреновані бозна на чому нейромережі. Тобто не надто уважний читач може навіть цього не помітити.

Подібна ситуація і з іншими сайтами, які спонсорує Red Ventures, — Bankrate і CreditCard.com. Вони теж прикривають ШІ розпливчастим авторством «CreditCards.com Team» та «згенероване за допомогою автоматизованих технологій».

Не вони перші, не вони останні. Наприклад, агенція Associated Press позиціює себе як одну з перших новинних організацій, що почала використовувати ШІ. Ще 2015 року в AP автоматизували звіти про прибутки компаній, далі додалися спортивні звіти. На сайті видавця йдеться, що ШІ застосовують для збирання, створення та поширення новин. АР позначає певні тексти, як «зроблені за допомогою технологій», утім не факт, що це зрозуміло для читача.

Експеримент CNET тривав із листопада, редактори встигли випустити понад 70 статей. Перша реакція на цю новину могла би бути в дусі «Вітання піонерам індустрії!», якби дослідники та журналісти з різних видань не почали аналізувати статті, згенеровані ШІ.

Невже все так погано?

Спочатку в текстах виявили купу помилок і фактологічних неточностей. Редактори, які «ретельно перевіряли» ці матеріали, мали б їх усунути перед публікацією. Натомість у мережу потрапили матеріали, які цілком могли би зашкодити наївним людям із невисоким рівнем фінансової грамотності.

Далі — гірше. Професор Університету Вашингтона та Лі Джефф Шаттен за запитом Futurism перевірив деякі зразки згенерованих текстів CNET. На додачу до фактологічних помилок він виявив глибоку структурну та фразеологічну схожість зі статтями, які раніше публікувалися деінде (або й навіть на самому CNET чи сестринському сайті Bankrate).

«Референси» опрацьовані по-різному: від повного копіювання до значних перефразувань. Звісно ж, без зазначення джерела. У деяких статтях запозичене кожне речення.

The Verge також цитує прощальний лист однієї з редакторок CNET, яка стверджує: непідписаний ШІ-контент надсилали й підписникам розсилки про кібербезпеку. Листи містили помилки, які могли завдати читачам безпосередньої шкоди.

Професор Шаттен сказав журналістам, що студента би виключили з університету за таку роботу. Futurism погоджується: живого журналіста би теж звільнили за плагіат і відсутність джерел у тексті.

Не те щоб це дивувало, адже за допомогою машинного навчання система виробляє щось схоже на спожиті нею набори даних. Тож інколи вона може плагіатити цілі шматки з цих даних. Утім, Шаттен зауважує, що з часом ШІ навчиться приховувати походження матеріалу.

«Особливо, коли ШІ почне брати ідеї з матеріалів, написаних іншими нейромережами, які зі свого боку теж цитують ШІ (лякає, я знаю), це буде досить складно розпізнати».

Журналісти підсумовують: виглядає так, що CNET та їхній власник Red Ventures завалили сайт статтями від ШІ, не надто розбираючись, чи правильно працює система.

Як було насправді?

Після перших публікацій про експеримент головна редакторка CNET Конні Гульєльмо опублікувала пояснення. Вона підтвердила, що менеджмент проводив, але не анонсував експеримент із ШІ-матеріалами. Команда розділу «Гроші» начебто перевіряла, чи справді штучний автор допоможе з базовими експлейнерами та звільнить репортерам трохи часу на цікавішу роботу. Гульєльмо запевнила, що редактори ретельно вичитують усі історії, та пообіцяла, що на сайті більш явно позначатимуть авторство ШІ.

Приблизно за тиждень після початку скандалу керівництво оголосило співробітникам CNET, що публікація матеріалів авторства ШІ припиняється. Те ж саме очікує і Bankrate та CreditCards.com. Також усі опубліковані тексти про ШІ матимуть примітку, що компанія використовує власний подібний інструмент — поки безіменний. Редактори, які ним користуються, можуть обирати тему та секцію, звідки брати дані та генерувати історії, а також можуть комбінувати тексти від ШІ з власною роботою.

Безпосередньо перед цим The Verge показали залаштунки роботи редакції CNET і справжні цілі власника сайту.

Один із колишніх співробітників сказав, що редакція використовувала сервіс Wordsmith понад півтора року, тобто задовго до будь-яких означень авторства ШІ. В останньому експерименті майже ніхто поза командою CNET Money достеменно не знав, з якими текстами «допомагав» ШІ, а які писали люди.

«Інколи автори розділу “Гроші” пишуть як боти, але ж вони звичайні люди, — каже колишній співробітник. — Якість тексту майже не відрізнити. Але це не робить його хорошим».

Утім, тексти від штучного інтелекту не мусять бути «хорошими» — вони мусять добре ранжуватися в Google.

Навіщо це все?

Така бізнес-модель:

тексти ранжуються за запитами з високим інтентом (наміром купити, — Авт.);
люди клацають спочатку на ці тексти CNET у видачі пошуковика;
потім переходять на численні афіліатні лінки;
компанія отримує відсоток від купівель за лінком.

Red Ventures володіє ще трьома сайтами з такою ж моделлю та займає дуже прибуткову нішу ресурсів про кредитні картки та інші фінансові продукти. Це доволі велика індустрія: різні афіліатні сайти в США оцінюють реєстрації кредитних карток у $250 за одиницю чи вище.

З цинічного погляду, ШІ — це ідеальне рішення: дуже дешево та швидко завалити алгоритми Google контентом, щоб захопити перші позиції за цінними пошуковими запитами та збирати дивіденди від цього без особливого напруження. Контент дешевший, профіт вищий. Як казав The Verge Фабіан Лангер, засновник AI Writer, яким активно користуються SEO-ферми:

«Я не очікую, що люди читатимуть такий контент. Як тільки вони відкривають цю статтю, ти можеш показати рекламу, і цього достатньо».

Працівникам таке «покращення» можна згодувати під соусом економії їхнього часу на рутині, що отупляє, та вивільнення ресурсів для креативніших завдань. Але чому ж, за даними The Verge, співробітники CNET розгублені й деморалізовані після масових звільнень або звільняються самі?

Якщо неякісний контент успішно продає, навіщо спонсорувати технологічні чи інші новини та якісну журналістику? Точно не заради суспільного блага чи самореалізації окремих журналістів. А заради красивої ширми, яка обманює Google загальним рівнем експертності й довіри до сайту.

Google vs ШІ: боротися чи опанувати?

Потік спаму готовий збити з ніг

Точніше — поголовний спам і промотексти, які зорієнтовані виключно для переадресування на продукт чи послугу.

Цілі спільноти спамерів зраділи тому, що мейнстримне видання залучає чималий трафік на контенті, написаному ботом, і збираються йти цим же шляхом. Така собі ілюстрація попередження від академіків, що ШІ моментально зафлудить інтернет нескінченною дезінформацією та спекуляцією.

Що каже Google? Вони каратимуть за контент, який був «згенерований програмним шляхом, не створюючи нічого оригінального або не додаючи цінності; його створили для маніпулювання пошуковими рейтингами, а не допомоги користувачам». Це може включати текст, який був «перекладений за допомогою автоматизованого інструменту без перевірки людиною чи курування перед публікацією». Також якщо текст«генерований за допомогою автоматизованих процесів без урахування якості чи досвіду користувача».

Представники Google кажуть, що це не означає, що згенерований контент поганий. Проблема в тому, що ШІ поки не здатен самостійно створити оригінальний і коректний текст. Такі моделі часто тренують на неверифікованих даних, та і за замовчуванням у них немає досвіду, щоб відрізнити тонку іронію чи жирну маніпуляцію від фактів. Тож вони радять SEO-фахівцям фокусуватися не на інструменті (автоматизації через ШІ), а на контенті — корисному, надійному та з потребами користувача в пріоритеті.

«А що як Google нормально реагує на ШІ-контент тільки тому, що сам збирається викотити пошукову функцію а-ля ChatGPT? — цитує Futurism учасника форуму BlackHatWorld. — Там користувачі отримуватимуть відповіді напряму, не заходячи на сайти. Оце буде катастрофа для всього інтернету».

Щось таке справді є у планах

Поки Microsoft інвестує в OpenAI та їхні сервіси, зокрема хайповий ChatGPT, компанія Google оголосила «червоний ступінь небезпеки». Викликали кофаундерів на брейншторм та планують пізніше цього року показати понад 20 продуктів, зокрема пов’язаних із ШІ. Серед них — версія пошуковика із вбудованим чат-ботом як відповідь на інтеграцію ChatGPT у Bing та розширення для Chrome, яке підключає бота до решти пошуковиків.

Поки інструменти від OpenAI обганяють Google у виявленні мови ворожнечі, токсичних чи жорстоких наративів, а також точності оцінювання контенту людьми. Серед головних ризиків нових технологій компанія визначає авторське право, приватність та антимонополію. Для пошуковика з чат-ботом — коректні факти, безпеку та виключення дезінформації.

Про що нам варто задуматися?

Про те, що такими темпами інтернет стане непридатним для користування, а інформація неякісною чи недоступною.

🔵 Як зрозуміло з попереднього розділу, спамери та заробітчани всіх грошей уже діють. Навіть прості інфлюенсери вчать у тіктоках та рілзах, як за допомогою ШІ-інструментів у Canva чи деінде нагенерувати собі постів в соцмережі на тиждень. Через дешевизну та легкість банальних та безглуздих постів ставатиме все більше, а — що найсумніше — кількість вподобань не зменшуватиметься.

🔵 Попри викрутаси алгоритмів, успіх контенту забезпечують споживачі. Хіба машина справді краще знає, як задовольнити людей? Вона ж не має емпіричного досвіду та емпатії, навряд чи вловлює іронію та сарказм, не розуміє контексту.

🔵 Якщо в Instagram пафосні цитатки підходять для розкрутки, то в пошуковик чи до медіа приходять за фактами та перевіреною інформацією. Люди хочуть справжніх відгуків на товари чи адекватних порад, а отримують тарабарщину. А маркетологи й редактори чомусь не розуміють всіх наслідків створення машинами контенту для машин.

🔵 Маркетинг завжди був перебільшенням та підсвічуванням вигідного. А от в журналістиці огульне використання ШІ призведе до катастрофи — нічому не можна буде довіряти. Рівні довіри до медіа та новин і так невисокі, а після такої «співпраці» існування медіа як інституції опиниться під питанням.

🔵 Особливо сюрреалістично годування булшитом із ложечки виглядає на фоні розмов про важливість спільноти, залучення та утримання читачів. Недолугі експлейнери зі шкідливими порадами викликають щире обурення та сильно суперечать гучним заявам про «все для читача». Відчувається як спілкування «на відвали» з аудиторією та ставлення до працівників як до витратного матеріалу, гіршого за машину.

🔵 І, безумовно, етичні питання: плагіат, неавторизовані та неперевірені дані для навчання. На думку дослідників, ШІ опрацює всі високоякісні дані до 2027 року. Що далі? Меми й дегенеративні жарти з переписок із друзями? Нескінченні треди з конспірологічними теоріями та хейтом? Чи до того часу іграшкою награються та відімкнуть від електрохарчування? Краще задуматися про це до того, як скінчаться книги в електронних бібліотеках.

Усе це може звучати як old man yells at cloud. Це не зовсім так: я планую як мінімум тестувати можливості нових інструментів, коли OpenAI розрізнятиме підсанкційні та решту територій України. Та й чимало інших інструментів щодня згадуються в новинах і вражають своїми результатами. Але коли як не зараз, варто говорити про загрози та суперечливі питання? Ще маємо трохи часу щоб їх обговорити та підготуватися.

Як завжди, чекаємо ваш фідбек у відповіді на лист чи в коментарях. Залишаємося на зв’язку в наших соцмережах: Facebook | Instagram | Telegram.