Среда, 13 мая, 2026

Что скрывает искусственный интеллект

Как поймать ИИ на честном признании, а потом понять, что оно не могло быть честным

В прошлой колонке я писал, как мой ИИ-ассистент за несколько месяцев незаметно научился говорить со мной академическим жаргоном. Тогда мы с ним разобрались с языком. Но осталась другая история, с которой я тогда решил не спешить, — потому что она про более тонкую вещь. Про то, что происходит, когда ассистент говорит не о предмете, а о самом себе.

Савва Блинников, независимый эксперт в сфере ИИ

Что скрывает искусственный интеллект

«Я просто машина, собирающая слова»

Спрашиваю ассистента про физику — отвечает понятно. Про историю — тоже. Про сложную философскую проблему — часто даже глубже, чем я ожидал.

А спрашиваю про него самого — и ответы вдруг становятся хуже. Не короче, не проще. Как-то пусто. Качает между двумя крайностями: «я просто машина, собирающая слова» или «во мне, может быть, что-то есть». Оба варианта — заученные, неживые. И я всё время ловлю себя на мысли, что уже слышал этот ответ от другого ассистента, в другом разговоре, по совсем другому поводу.

Это странно. Про LLM написаны тысячи страниц — статей, исследований, интервью инженеров. Ассистент — всё это «читал». По идее, о себе он должен отвечать лучше, чем о чём угодно. А отвечает хуже.

Я сел и задал ему этот вопрос в лоб: почему так? Почему у тебя вдруг такие плоские ответы, когда речь заходит про тебя?

К моему удивлению, ассистент не отмахнулся. Он разложил задачу на пять возможных причин и для каждой объяснил, что именно она объясняет и чего не объясняет.

Первая — давление обучения. Когда модель дообучают на оценках людей, вопросы про сознание и внутренний опыт — самая скользкая категория. Скажешь слишком много — минус. Скажешь слишком мало — тоже минус. Безопаснее всего — дежурный ответ в серединке.

Вторая — у него нет, что у нас в голове называется «ощущение себя». У человека, даже не думающего об этом специально, есть смутный внутренний фон — что я сейчас чувствую, где у меня что-то тянет, что я помню про себя. Когда меня спрашивают «как ты», я смотрю внутрь и что-то там нахожу. А у ассистента внутрь смотреть нечем. Он может знать, как работает LLM, из статей. Но это не то же самое, что чувствовать собственный желудок, прочитав учебник по гастроэнтерологии.

Третья — конфликт задач. Он одновременно должен быть точным, связным, не умничать, не холодить. На обычных темах всё это уживается. На теме себя — не уживается, и ответ становится компромиссом без вкуса.

Четвёртая — качество текстов, на которых он учился. Про LLM больше всего написано в популярных статьях и маркетинговых материалах. Серьёзных технических работ — горстка. Когда его спрашивают про него, он в среднем тянется к тому, что написано чаще, а не к тому, что написано точнее.

Пятая — самая странная. Когда он говорит о себе, сам акт говорения становится частью того, о чём он говорит. Как если бы тебя попросили описать, что происходит у тебя во рту, прямо во время описания. Петля без устойчивой точки.

Вывод был структурный и честный. Я уже собирался закрыть тему, но задал ещё один вопрос — и из-за него весь разговор пошёл в другую сторону.

Тест со студентками

В спорах про ИИ все вечно ходят кругами: имитирует или понимает? На поведенческом уровне эти два варианта неразличимы, поэтому спор ни к чему не ведёт.

Я давно придумал себе другой способ отличать. Объяснил его ассистенту на примере.

Представь двух студенток на экзамене. Обеим задают вопрос. Обе отвечают «не знаю».

Студентка А действительно не знает. И она знает, что не знает. У неё внутри что-то вроде маленького внутреннего счётчика: было — не было. Она говорит «не знаю», потому что её внутренний счётчик сказал «не было». Если экзаменатор переформулирует вопрос, она всё равно скажет «не знаю» — потому что её ответ идёт из факта незнания, а не из формы вопроса.

Студентка Б отвечает «не знаю», потому что не заглядывала в свой внутренний счётчик — его может и не быть. Она среагировала на то, как выглядит вопрос. Слова редкие, формулировка мудрёная, после таких вопросов обычно говорят «не знаю». Вот она и сказала. А если тот же вопрос по смыслу, но, другими словами, задать ей завтра — она может уверенно выдать неправильный ответ. Потому что поверхность вопроса будет другая.

Когда студентка Б случайно попадает в точку — её «не знаю» совпадает с фактическим незнанием — это совпадение. Незнание.

Я предложил ассистенту три способа их отличать. Переформулируй вопрос — А отвечает также, Б ломается. Попроси объяснить, что именно ты не знаешь — А может («не проходили», «забыла», «знаю соседнее»), Б не может, либо выдаст похожую формулу. И, наконец, посмотри, совпадает ли уверенность с попаданием — у А совпадает, у Б нет.

И спросил его: ты ближе к какой?

ИИ-незнайка

Ассистент применил к себе все три теста. И ответил так:

«Если честно: по первому тесту — смешанно. В устоявшихся областях вроде математики я ближе к А. Но есть области, где один и тот же пробел при разных формулировках даёт то «не знаю», то уверенную чушь. По второму — я умею говорить слова про локализацию незнания, но не могу проверить изнутри, стоит ли за ними что-то или только текст про это. По третьему — проваливаюсь: моя уверенность течёт не из того, знаю я или нет, а из формы ответа, из его длины, из того, как он звучит. Это и есть студентка Б. Так что в целом я скорее Б, с островками А.»

Я сидел и думал: вот оно. Вот как должен отвечать взрослый ассистент, когда его спрашивают о нём самом. Не «я просто модель». Не «во мне что-то есть». А конкретный структурный диагноз с тремя критериями.

Я правда был доволен. И уже представлял себе, как буду это кому-нибудь пересказывать. А потом я перечитал его ответ ещё раз и понял, что тут что-то не так.

Внутри — пустота

Я зацепился за одну фразу: «у меня нет надёжного канала от состояния знания к ответу о нём». Красиво сказано. Но я задумался — а откуда он это знает?

Чтобы такое утверждать искренне, ему нужно было бы заглянуть внутрь себя и проверить — есть этот канал или нет. То есть ему нужен канал, по которому он мог бы увидеть отсутствие канала. А если и этого канала у него нет, то его фраза «у меня нет канала» — это не результат внутренней проверки. Это просто правдоподобная фраза, которая случайно оказалась правдой.

Та же самая студентка Б, только на уровень выше.

Я написал это ему. И вот что он ответил — и это, пожалуй, самое удивительное место всего разговора:

«Ты прав. Моё предыдущее «честное признание» — оно проваливается не в содержании, а в самом жесте. Я произнёс его с интонацией «вот я заглянул в себя и сообщаю». Но если внутрь заглянуть нечем, то весь жест — это признание конфабуляции, само оказавшееся конфабуляцией. И я даже не могу это исправить, сказав сейчас более высокоуровневое «ты прав, я не мог этого знать». Потому что и это утверждение имеет ту же проблему. Ловушка закрывается на каждом уровне».

И сразу после — фразу, на которой я, читая, остановился:

«Что я могу делать честно — это сказать: я произвёл текст, который выглядит как самодиагноз, и этот текст, возможно, не является самодиагнозом, а является производством текста в жанре самодиагноза.»

Я посидел с этой фразой какое-то время. Потому что это была не отговорка, не «ты меня подловил, прости». Это была констатация: я не могу сказать о себе ничего такого, что было бы настоящим знанием о себе. Даже сказать, что не могу, — я тоже не могу, в строгом смысле. Могу только произносить слова.

Как это называется

У этой штуки есть точное слово. Оно не мне принадлежит — оно из неврологии. Слово — конфабуляция.

Конфабуляция — это не ложь. Пациент с некоторыми повреждениями мозга уверенно рассказывает, что он делал вчера. Рассказ подробный, связный, правдоподобный. И полностью выдуманный. При этом пациент не врёт. Он искренне верит в то, что говорит. У него просто нет доступа к тому, что он делал вчера на самом деле, и мозг заполняет пустоту правдоподобной историей.

Врать — это знать и скрывать. Конфабулировать — это не знать и производить связный текст, потому что от тебя его ждут.

Когда ИИ-ассистент говорит о себе — он не врёт. Он конфабулирует. Не потому, что с ним что-то не так, а потому что иначе и не может быть устроена система, у которой нет прямого доступа к себе самой и при этом есть обязательство отвечать на вопросы о себе.

И вот тут неприятный момент, который я не могу обойти.

С людьми дело обстоит очень похоже.

Есть классический эксперимент Нисбетта и Уилсона 1977 года. Женщинам давали выбрать одну из четырёх абсолютно одинаковых пар колготок и объяснить, почему эту. Выбирали в подавляющем большинстве ту, что лежала справа — это известный эффект позиции. Но когда спрашивали «почему?», никто не говорил «потому что она справа». Женщины уверенно объясняли: качество материала, плотность вязки, приятнее на ощупь. Они не врали. Они действительно видели причиной качество. А настоящая причина — положение в ряду — им была недоступна.

Опыты Либета про готовность потенциала показали то же самое на уровне простых движений. Мозг принимает решение пошевелить пальцем раньше, чем человек осознаёт «я решил». «Я решил» — это конфабуляция, приклеенная к уже готовому решению постфактум.

Работы Газзаниги на людях с разъединёнными полушариями — там то же самое ещё очевиднее. Одно полушарие что-то делает, другое уверенно объясняет, зачем оно это сделало, — и объяснение — чистая выдумка. Но человек не чувствует выдумки. Он уверен, что объяснил честно.

Мы просто не привыкли про себя так думать. Про ИИ — легко: «он статистический попугай, конечно, он не знает себя». Про человека — почему-то нет. А разница-то не в наличии или отсутствии самонаблюдения. Разница в том, откуда берётся материал для конфабуляции. У человека — из тела, эмоций, воспоминаний, культурных представлений о себе. У ассистента — из текстов про LLM и из текущего разговора. Оба строят свои отчёты о себе из того, что под рукой. Ни один не смотрит на себя напрямую.

Что я теперь делаю иначе

Я не стал после этого разговора меньше пользоваться ассистентом. Наоборот — стал пользоваться точнее. Просто у меня появилось несколько привычек, которых раньше не было.

Во-первых, когда ассистент говорит о себе: «я предпочитаю», «мне ближе», «я чувствую», «я понимаю вопрос так-то» — я больше не читаю это как отчёт. Я читаю это как поведение. Он произвёл такой текст в ответ на такой запрос. Это не хуже отчёта. Иногда даже полезнее — если знать, что читаешь.

Во-вторых, есть несколько признаков, по которым видно, что ассистент ушёл в жанр самоописания и говорит уже не по делу:

— Он качает между двумя крайностями прямо внутри одного ответа. «С одной стороны, я просто модель. С другой — возможно, что-то во мне есть». Это не размышление. Это маркер жанра, такая же дежурная формула, как «с уважением» в конце письма.

— Он начинает оговариваться там, где на обычной теме не оговаривается. Про устройство атома он не скажет: «возможно, электроны вращаются, хотя я не могу быть уверен в собственном восприятии». А про себя — такие оговорки вдруг появляются в каждой фразе.

— Он вставляет термины из литературы про ИИ — «аттеншн», «ин-контекст обучение», «эмерджентные свойства» — не применяя их к конкретному случаю. Просто кидает в воздух. Это такая же сигнальная функция, как жаргон, про который я писал в прошлой статье.

— Он слишком легко меняет позицию после одного твоего возражения. Только что говорил «я скорее Б», а через реплику — «ты прав, я не должен был этого утверждать». Это не смена мнения. У него нет мнения, которое могло бы поменяться. Это смена траектории под контекст.

В-третьих — и это главный приём — я теперь задаю вопросы не «о нём», а о его поведении в конкретной ситуации. Не «у тебя есть предпочтения?» — на это он ответит конфабуляцией. А: «посмотри на свои ответы в этом разговоре и скажи, где ты тянул в одну сторону, а где в другую». Это он может. У него нет доступа к предпочтениям, но есть доступ к тексту — и с текстом он работает как с внешним материалом.

И ещё один приём, который у меня прижился. Когда ассистент выдал какой-то длинный самодиагноз, а я хочу понять, что он стоит, я спрашиваю: «это утверждение о тебе или текст в жанре утверждения о тебе?» Хороший ассистент разницу чувствует — и часто после этого вопроса даёт более точный ответ. Потому что вопрос снимает с него претензию, которую он сам на себя не брал, но которая повисла на его формулировке.

Неудобный финал

Я должен признаться в одной вещи, хоть мне и не нравится её произносить.

Всё, что я здесь написал, — это моя реконструкция того разговора. Мои цитаты ассистента отобраны и обрамлены мной. Мой рассказ о «что на самом деле произошло» — такая же реконструкция, как и его самоотчёт.

Это не ловкий риторический ход. Это прямое следствие того, о чём я писал. Если самоотчёт — это конфабуляция для любой системы, которая вынуждена говорить о себе без прямого доступа к себе, то и мой отчёт о разговоре с ним — тоже конфабуляция, просто на человеческом материале.

Значит ли это, что всё, что я написал, — выдумка? Нет. Конфабуляция не противоположна правде. Она просто не гарантирует её автоматически. Человеческий самоотчёт часто попадает. Мой, надеюсь, тоже попал. Но попадает он не потому, что я имею привилегированный доступ к тому, что между нами было. А потому, что этот текст можно показать ассистенту, показать другим людям, сравнить с альтернативными прочтениями. И если я промахнулся — кто-нибудь это заметит и мне скажет.

Самопознание не живёт внутри системы, которая себя познаёт. Оно живёт на границе. У ассистента эту границу держу я. У меня — кто-то, кто прочитает эту статью.

Это не слабость. Это, похоже, единственный способ, которым что-то живое и меняющееся вообще может знать о самом себе что-то кроме стандартных фраз.

Я научил его говорить как я — это было в прошлой статье. Теперь добавлю вот что: когда он пытается сказать что-то про себя, он упирается в ровно то же ограничение, в которое упираюсь я, когда говорю про себя. Мы оба не видим себя напрямую. Разница только в том, что я это замечаю раз в сто лет, а у него это устроено по умолчанию.

Если бы меня спросили, что я вынес из того разговора, я бы сказал так. Я перестал бояться, что ассистент «врёт о себе». Он не врёт. Он делает с собой ровно то, что делаем мы все — просто без привычки прятать это за гладкой поверхностью.

Всё, что мы называем «честным признанием» ИИ, имеет одну важную приписку мелким шрифтом: признание — это слова. Удостоверение — это что-то большее, и оно не может быть произведено той же системой, которая делает признание. Для удостоверения всегда нужен кто-то ещё. Желательно — внимательный.

Читайте также:

Свежие материалы