854 миллиона скачиваний за год. Пять дней работы Claude Code.Вот и всё, что понадобилось, чтобы содрать двадцать лет копилефт-защиты с chardet — библиотеки опре854 миллиона скачиваний за год. Пять дней работы Claude Code.Вот и всё, что понадобилось, чтобы содрать двадцать лет копилефт-защиты с chardet — библиотеки опре

[Перевод] Один ИИ за пять дней уничтожил двадцать лет опенсорсной защиты. Вот как это было

2026/03/13 10:36
8м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу [email protected]
7887571a04b30afdeb2585fb079e410a.png

854 миллиона скачиваний за год. Пять дней работы Claude Code.

Вот и всё, что понадобилось, чтобы содрать двадцать лет копилефт-защиты с chardet — библиотеки определения кодировок для Python, которая сидит практически в каждой Python-среде на планете.

Прежде чем нырнём в историю, давайте проясним два типа лицензий, вокруг которых всё вертится. LGPL говорит: «Можешь использовать этот код, но если ты его изменил — делись изменениями на тех же условиях». MIT говорит: «Делай что хочешь». Первая защищает сообщество. Вторая позволяет корпорациям брать, ничего не отдавая взамен.

2 марта 2026 года Дэн Бланшар выпустил chardet 7.0.0. Назвал это «полной переписью с нуля под лицензией MIT». Лицензия LGPL, которая защищала библиотеку с 2006 года, — исчезла. Вместо неё — MIT. Инструмент, который выполнил переписку: Claude Code от Anthropic, модель Opus 4.6.

Через два дня вернулся Марк Пилгрим. Человек, который создал chardet в 2006-м. Человек, который в 2011 году стёр все следы своего присутствия в интернете. В сети это называют его «инфосуицидом». Пятнадцать лет тишины. Его первый публичный пост за более чем десятилетие — Issue #327 на GitHub: «Нет права перелицензировать этот проект».

1 468 человек поставили ему плюс. Issue теперь заблокирован.

Если вы пишете на Python, вы почти наверняка зависите от chardet. И судьба этой юридической битвы может определить, значит ли копилефт хоть что-нибудь в эпоху ИИ.


Создатель, который стёр себя

Марк Пилгрим написал chardet в 2006 году — это был порт на Python детектора кодировок Mozilla, изначально написанного на C++. Он выбрал лицензию LGPL — копилефт, который требует, чтобы производные работы сохраняли те же условия. Библиотека определяет кодировку символов — та самая невидимая сантехника, благодаря которой текст нормально отображается на разных языках и в разных системах.

В 2011 году Пилгрим совершил то, что стало известно как его «инфосуицид». Удалил блог. Удалил аккаунт на GitHub. Полностью исчез из интернета.

Дэн Бланшар подхватил проект в июле 2012-го и поддерживал chardet больше тринадцати лет. Тринадцать лет багфиксов, обновлений совместимости и той медленной, неблагодарной работы, из которой состоит поддержка библиотеки с 135 миллионами скачиваний в месяц — библиотеки, о существовании которой никто даже не задумывается.

Джон Грубер из Daring Fireball отметил, что Issue #327 — «первый публичный пост Пилгрима, который я видел за довольно долгое время». Пятнадцать лет молчания, прерванных спором о лицензии.


Пять дней, 264 коммита и новая лицензия

Позиция Бланшара проста и прямолинейна. Он хотел сделать chardet быстрее и точнее — без ограничений LGPL, которые считал помехой.

«Главное, что мешало мне добиться этих целей раньше, — это время, — написал Бланшар. — Claude дал мне возможность сделать то, что я хотел, примерно за пять дней».

По сути, он нанял подрядчика, чтобы построить новый дом на том же участке. Начал в чистом репозитории. Дал Claude инструкцию не обращаться к коду под LGPL. Pull request #322 содержит 264 коммита. Анализ на плагиат через JPlag показал лишь 1,29% сходства между chardet 7.0.0 и предыдущей версией. Для сравнения: версии с 5.x по 6.x показывали 80–93% сходства между собой.

dcd1ec262799d78a7a0217c5855cf972.png

Новая версия демонстрирует реальные улучшения: в 41 раз быстрее при компиляции через mypyc, точность 96,8% (на 2,3 процентного пункта выше), поддержка 99 кодировок вместо примерно трёх десятков в предыдущих версиях, ноль внешних зависимостей.

Но была одна проблема. В процессе разработки Claude обратился к файлу metadata/charsets.py из оригинальной кодовой базы. Одно заражение в процессе, который задумывался как стерильный.


К слову об ИИ-инструментах для кодинга. Если вы хотите протестировать, как разные модели справляются с задачами генерации и анализа кода — и понять, какой из них доверять в рабочих процессах, — сервисы вроде BotHub дают доступ к ведущим нейросетям (GPT-5.4, Claude 4.6 и другим) в одном интерфейсе. Сравнивайте результаты, оценивайте качество, принимайте осознанные решения.

a0fcd18c93b77cd5181f5a10897e08cb.png

Для доступа не требуется VPN, можно использовать российскую карту.


«Нет права перелицензировать»

Возражение Пилгрима бьёт в самую суть авторского права и копилефт-лицензирования.

«Лицензированный код, когда он модифицирован, должен выпускаться под той же лицензией LGPL, — написал Пилгрим. — Добавление модного генератора кода в уравнение не даёт никаких дополнительных прав. Их заявление о "полной переписке" не имеет значения, поскольку у них был обширный доступ к изначально лицензированному коду (то есть это не "чистая комната")».

Реализация по принципу «чистой комнаты» требует строгого разделения. Это как собирать автомобильный двигатель исключительно по спецификациям, ни разу не видев оригинал. Одна команда документирует поведение. Совершенно другая команда пишет код. Бланшар, поддерживавший chardet более тринадцати лет, был в обеих командах. Claude, почти наверняка обученный на исходном коде chardet, выступал строителем.

ff74c663196dfe433805378574a2ef18.png

Фонд свободного программного обеспечения (FSF) не остался в стороне. Зои Кууман, исполнительный директор FSF, заявила The Register: «Нет ничего "чистого" в большой языковой модели, которая проглотила код, который ей предлагают переимплементировать». И добавила: «Подрыв копилефта — это серьёзный поступок».

Мэдисон Тейлор из NVIDIA, комментируя Issue #331, сформулировала практическую реальность без обиняков: «Этот риск, вероятно, невозможно снять без согласия всех контрибьюторов, а Марк, похоже, сейчас не расположен его давать».

244 комментария. Issue заблокирован. Решения нет.


Каждый юридический путь — тупик

В тот же день, когда Бланшар выпустил chardet 7.0.0, Верховный суд США отказался рассматривать дело Thaler v. Perlmutter. Стивен Тейлер утверждал, что автором произведений, созданных его ИИ, должен быть указан сам ИИ. Суд сказал «нет»: только люди могут обладать авторским правом.

Этот отказ создаёт тройной парадокс — перекрёсток, на котором все светофоры горят красным.

Путь первый. Код, сгенерированный ИИ, не имеет авторского права, потому что его не написал человек. В таком случае лицензия MIT, которую Бланшар наложил, бессмысленна. Код — общественное достояние. Кто угодно может им пользоваться, но никто им не владеет.

Путь второй. Результат работы ИИ — производное произведение, потому что модель обучалась на коде под LGPL. Значит, переписка Бланшара должна соответствовать LGPL, а перелицензирование под MIT — нарушение.

Путь третий. Результат работы ИИ — самостоятельное новое произведение. 1,29% сходства указывают на подлинно новое творение, и лицензия MIT правомерна.

Каждый путь создаёт проблему для кого-то. Первый разрушает бизнес-модель всех ИИ-инструментов для кодинга. Второй означает, что каждая строчка кода, сгенерированная ИИ, может нести на себе лицензию обучающих данных. Третий означает, что любой копилефт-проект на Земле можно «отстирать» до пермиссивной лицензии, пропустив через языковую модель.

Брюс Перенс, автор определения Open Source, не стал подбирать слова: «Я разбиваю стекло и тяну пожарную сигнализацию! Вся экономика разработки программного обеспечения мертва, ушла, закончилась, капут!»

Вопрос к вам: ваша компания оценивала, соответствуют ли ваши ИИ-инструменты для кодинга лицензиям кода, на котором они обучались? Если нет — это дело касается и вас.


Пять дней, чтобы убить двадцать лет защиты

Армин Ронахер, создатель Flask, подобрал слово для того, что произошло с chardet: «слопфорк».

Он описал более глубокую проблему через корабль Тесея: «Если ты выбрасываешь весь код и начинаешь с нуля — даже если результат ведёт себя точно так же — это новый корабль».

Но Ронахер также обнажил структурную уязвимость: сила копилефта всегда опиралась на трение. «Поскольку код становится всё дешевле и дешевле писать, это включает и переимплементации», — написал он. ИИ сделал стоимость воспроизведения поведения ничтожной — а у копилефта не нашлось ответа.

Этот инсайт объясняет, почему дело chardet важно далеко за пределами одной библиотеки.

Настоящая защита копилефта никогда не была в лицензии. Она была в стоимости переписки. Когда переписка с нуля падает с пяти лет до пяти дней — лицензия превращается в бумажку.

381b4ccf9888b87be6d2a6543217a1b6.png

Если подход chardet будет принят, рецепт прост: берёте любой проект под GPL, LGPL или AGPL. Скармливаете его поведение (не код) языковой модели. Генерируете новую реализацию. Демонстрируете низкое сходство. Ставите MIT. Единственная оставшаяся защита — товарный знак. Назвать свой форк «chardet» вы не можете. Всё остальное — забирайте.

Том Холверда на OSnews озаглавил свой ответ «великая отмывка лицензий началась» и предупредил: «"ИИ" — это самая крупная скоординированная атака на опенсорс в истории».

Сообщество уже реагирует. NetBSD и Gentoo полностью запретили контрибьюции с ИИ-генерированным кодом. Debian всё ещё обсуждает. Дэниел Стенберг закрыл программу баг-баунти curl после наплыва ИИ-генерированных отчётов. А charset-normalizer — альтернатива chardet без LGPL — уже существует для тех, кому нужно определение кодировок без юридических рисков.


Ваш pip install финансирует эту битву

Запустите pip install requests на любой машине. Начиная с версии 2.26.0 requests по умолчанию использует charset-normalizer, но chardet остаётся поддерживаемой альтернативой в цепочке зависимостей. Если вы деплоите Python в продакшен — вы, скорее всего, часть этой истории.

Дело chardet не решится в комментариях на GitHub. Потребуются суды — или как минимум определённое юридическое заключение о том, наследует ли ИИ-генерированный код лицензию своих обучающих данных. А до тех пор каждый проект, использующий chardet 7.0.0, находится в зоне юридической неопределённости.

Бланшар поддерживал chardet больше тринадцати лет. Эта работа заслуживает признания. Но механизм, который он выбрал, — использование ИИ для переписки копилефт-кода под пермиссивную лицензию — угрожает фундаменту, защищающему каждого опенсорс-контрибьютора, осознанно выбравшего копилефт.

Марк Пилгрим выбрал LGPL не случайно. Он сделал этот выбор двадцать лет назад — и нарушил пятнадцатилетнее молчание, чтобы его отстоять. Вопрос в том, сможет ли правовая система угнаться за технологией, которая сделала обход этого выбора настолько простым.

Проверьте свои зависимости. Если chardet 7.0.0 там есть — закрепите версию 6.x, пока юридическая картина не прояснится. Пересмотрите политику вашей организации в отношении ИИ-генерированного кода и соблюдения лицензий. А если вы поддерживаете копилефт-проект — начинайте думать о том, какие защиты остаются, когда переписка с нуля стоит пять дней вместо пяти лет.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.