Определение авторства. Эпизод I: Мнимая угроза.

Пиком
Пиком
На днях сразу несколько источников сообщило о следующем: На берлинской конференции 29C3 группа американских аспирантов из университета Дрекселя представила свою разработку – альфа-версию инструмента для установления авторства текста, названную JStylo.
С помощью программы появится возможность устанавливать авторов анонимных публикаций, сопоставляя данные лингвистического анализа, собранные из разнообразных источников: форумов, почты, записей в твиттере и т.д… …Такой инструмент анализа сможет помочь в выявлении хакеров, взломщиков программ и создателей вредоносных вирусов. Та же группа ученых разрабатывает антипод JStylo - программу Anonymouth, которая призвана помочь авторам "стереть" уникальность своих текстов, оформив их в нехарактерном стиле. Давайте разбираться. Понятное дело, что ловить хакеров при помощи лингвистического анализа их поведения в сети – задача странная. Ведь известно, что хакеры, за редким исключением, крайне немногословны. Не говоря уж о том, что не пишут под своими реальными именами в блоги, и странички на Facebook не ведут. Ловить по манере писать код – можно, но, есть подозрение, что хороший код у ста хороших программистов будет почти идентичен, сильно разнятся обычно как раз коды плохие, то есть у наименее интересных с точки зрения «следствия» персонажей. Впрочем, тут мы, конечно же, Америки не открываем. Современная активная интернет-общественность уже в первых строчках угадала надвигающуюся тень Большого Брата. Снова послышались возгласы про колпак, под которым мы все находимся, опять поднялся вопрос государственного контроля за сетью.

И некоторое здравое зерно здесь есть: действительно, судя по описанию, подобные механизмы могут быть полезны только лишь в отношении тех, кто много и часто пишет в сети от своего собственного лица. А это, скорее всего, пользователи социальных сетей и активные блогеры. Зачем еще может потребоваться определять авторство такого активного пользователя, кроме как не за тем, чтобы уличить его в «преступлении словом»?
С другой стороны, люди, ведущие активную агитацию, чаще всего не скрывают собственной личности, поскольку делают это профессионально и абсолютно честно с точки зрения закона. А если и скрывают, и ведут незаконную деательность, то представить, что они неизвестны соответствующим органам – весьма сложно.
На самом же деле, бояться рядовым пользователям совершенно нечего. Даже в США, где пока и ведутся эксперименты, причем только в отношении англоговорящих, результаты пока огорчают: тексты до 500 слов не позволяют достоверно определить авторство, использование псевдоязыка и сленга сбивает и путает систему. Так что до сопоставления твитов друг с другом еще очень и очень далеко. Кроме того, далеко не факт, что система будет вообще работоспособна для России – адаптация к русскому языку, судя по всему, будет сложной и нецелесообразной (если, конечно, Сколково не разрабатывает аналог с нуля).
Но вот что интересно: подобный анализ потребует использования весьма внушительных ресурсов и, однозначно, будет основываться на данных поисковых сетей. Еще один поисковик создавать никто не будет точно, закупать Data-центры – возможно, но непросто. Куда проще будет авторам продать свой алгоритм какой-нибудь крупной поисковой системе… Скажем, Google. А то и самим вместе с алгоритмом переехать в этот самый Google. И, как это происходило уже сотни раз, красивая идея и неплохая задумка превратятся в кусок поискового алгоритма. Чем это может грозить?
Для SEO-специалистов, пожалуй, ничем. Конкретное авторство для SEO некритично, для SEO критично определение оригинала, а это совсем не одно и то же. Но куда интереснее станет жить нескольким другим отраслям.

Во-первых, блогерам самой разной величины. Они создают авторский контент, который может быть разным. В зависимости от того, какой контент они создают, одним станет легче продавать свой слог, а другим сложнее отнекиваться, что слог – не их. Так или иначе, если алгоритм заработает на полную катушку, то поначалу шума и веселых казусов будет немало.
Во-вторых, копирайтерам. Предположим, что алгоритм работает идеально, что он не ошибается и настроен очень тонко. В этом случае, с одной стороны, поисковая выдача превращается в своеобразное портфолио копирайтера, которое говорит за него. С другой стороны, появляется спрос на «обезличенный копирайтинг», который будет стоить гораздо больше обычного – «тексты без автора» будут изюминкой любого сайта. А самым дорогим, высшим пилотажем копирайтерского ремесла станет написание текстов «под стиль». То есть таких текстов, авторство которых алгоритм приписывает другому человеку. И это далеко не только текста авторства директора компании, но и, скажем текста авторства общественно-политических деятелей, тех же блогеров и прочих медийных личностей.
В-третьих, если предположить, что алгоритм работает и с другими форматами, в частности, со звуком (а это совсем не сложно, учитывая текущие разработки в области распознавания голоса), то можно вести речь о полноценном создании пресс-портрета публичной личности, которое, несомненно, существует и сейчас, но работает в одностороннем режиме – создание и посев публикаций. В случае же с новым алгоритмом, у пользователя появится возможность сбора этого самого пресс-портрета из того, чем располагает сеть – а значит тем, кто над этим пресс-портретом бьется, придется учитывать этот фактор как один из главных.
Всех остальных, пожалуй, заденет куда слабее: обычные пользователи просто станут создавать еще меньше осмысленных текстов, и через пару месяцев, убедившись, что на однокласснице Маше алгоритм не работает и выдает какой-то бред, попросту будут его игнорировать. Авторы научных трудов получат шанс потешить свое самолюбие, увидев себя соавторами пары миллионов рефератов и курсовых. Учителя получат возможность увидеть реальных авторов этих же самых рефератов и курсовых, или, по-крайней мере, убедиться, что реферат писал не их ученик. Творцы будут посрамлены тем, что их творения вторичны, когда алгоритм скажет, что текст, который написал Иван Иванов, на самом деле очень напоминает Льва Толстого, или, того хуже, современника Ивана, Петра Петрова.
В общем, мы крайне не рекомендуем бояться введения поголовного контроля больше, чем вы боялись Конца Света. По крайней мере, не в ближайшее время;).