Elsevier подає до суду проти Meta через використання наукових праць ⚖️

Наукова публікація зіткнулася з технологічним викликом: один із найбільших світових видавців Elsevier подав колективний позов проти компанії Meta. Суть скарги полягає у незаконному використанні матеріалів, захищених авторським правом, для навчання штучного інтелекту. Цей юридичний виклик стає одним із перших масштабних кроків з боку великих видавничих будинків проти гігантів ШІ, які використовують дані користувачів та наукові праці без належного дозволу.

В рамках цього процесу Elsevier, який публікує такі знакові журнали, як Cell та The Lancet, приєднався до низки фірм та авторів, що оскаржують методи роботи компанії Meta у розробці її великої мовної моделі (LLM) Llama AI model. Це не просто бізнес-суперечка, а фундаментальне питання щодо майбутнього інтелектуальної власності в епоху штучного розумного.

Деталі колективного позову проти Meta

Колективний позов був поданий 5 травня у Південному окрузі Нью-Йорка проти технологічної компанії Meta та її генерального директора Марка Цукерберга. До інших позивачів приєдналися великі видавництва, такі як Hachette та Macmillan, а також американський автор і юрист Скотт Туроу.

Видавці стверджують, що Meta отримала та відтворила матеріали, захищені авторським правом, під час розробки своєї LLM Llama. За словами Асоціації американських видавців, цей випадок є першим юридичним кроком у сфері ШІ, і він має значний резонанс для індустрії. Ця справа відображає схожі процеси, які ведуть автори та медіакомпанії (зокрема The New York Times) проти компаній зі штучним інтелектом за аналогічними підставами.

Як відбувалося "навчання" ШІ

Згідно з позовом, для тренування Llama Meta використала масив даних, що містив несанкціоновані копії захищених творів. Хоча компанії зі штучним інтелектом часто уникають розкриття деталей своїх навчальних наборів, вважається, що до них входили мільярди вебсторінок.

Позивачі звинувачують Meta у використанні таких джерел:
* Common Crawl: Набір даних, що містить зразки мільярдів вебсторінок, зібраних шляхом сканування Інтернету, де, ймовірно, були включені несанкціоновані копії наукових рефератів та платного контенту.
* LibGen: База даних книг, дослідницьких праць і підручників.
* Sci-Hub: Репозиторій, який надає безкоштовний доступ до мільйонів наукових статей незалежно від авторського права.

Крім того, видавці стверджують, що Meta завантажувала та використовувала (через файлообмін) матеріали з цих сайтів.

Юридичний контекст і позиція компанії

Хоча деякі подібні справи вже були врегульовані, наразі ще не встановлено чіткого юридичного прецеденту щодо законності використання захищених авторським правом творів для тренування великих мовних моделей.

Meta, зі свого боку, заявила, що буде "агресивно боротися з цим позовом". Компанія планує стверджувати, що навчання на захищених документах підпадає під доктрину "добросовісного використання" (fair use), яка є винятком у законодавстві США. Представник Meta заявив: "ШІ забезпечує трансформаційні інновації, продуктивність та креативність для окремих осіб і компаній, а суди справедливо визнали, що навчання ШІ на матеріалах, захищених авторським правом, може кваліфікуватися як добросовісне використання".