Поисковые роботы и ИИ-агенты — это принципиально разные сущности. Классический бот поисковика интересуется структурой сайта и содержимым страницы ровно в той степени, в которой это нужно для индексации и ранжирования. Его задача — понять, о чём страница, и решить, стоит ли показывать ее пользователю в поиске.
LLM-агенты работают иначе. Они не ограничиваются индексацией. Они читают контент целиком, пересказывают его, комбинируют с другими источниками и используют как материал для ответов пользователям. Для них сайт — это кусок базы знаний.
И тут выясняется, что привычные инструменты веба решают лишь часть задач. Robots.txt отлично подходит для управления доступом к страницам, но он никак не отвечает на вопрос, что именно можно делать с контентом после того, как он был прочитан. Можно ли использовать текст в обучении модели? Можно ли цитировать его в ответах? Можно ли пересказывать без ссылки? Ответов в классической инфраструктуре веба на это просто нет.
В результате веб постепенно меняет свою роль. Он перестает быть только пространством для поиска и всё больше становится источником данных для моделей. Если раньше сайт существовал ради перехода пользователя, то теперь он всё чаще используется без клика — как сырье для генерации ответов. И это качественно новая реальность, к которой старые правила оказались не готовы.
Robots.txt: что он умеет и чего не умеет в эпоху ИИ
Robots.txt — один из самых старых и устойчивых инструментов веба. Его изначальная роль предельно прагматична: подсказать поисковым роботам, какие разделы сайта можно обходить, а какие лучше не трогать. Сюда же добавились задачи управления crawl-budget, защита технических разделов и базовая санитария сайта.
В рамках классического SEO robots.txt работает отлично. Он управляет доступом: робот либо может зайти на страницу, либо не может. Всё просто.
Проблема в том, что ИИ-агенты читают robots.txt не так однозначно. Часть из них старается учитывать его директивы, часть — игнорирует, а единого стандарта поведения просто не существует. Даже если агент формально соблюдает запреты, это всё равно не решает главный вопрос: что именно он имеет право делать с уже полученным контентом?
И здесь вскрывается фундаментальное ограничение robots.txt. Этот файл отвечает на вопрос «Можно ли зайти?», но не «Как можно использовать прочитанное?». Для поискового робота этого было достаточно. Для LLM-агента — нет.
Возникают типичные конфликтные сценарии с контентом: его можно читать, но нельзя применять для обучения модели; можно использовать в ответах, но нельзя индексировать как источник; можно резюмировать, но нельзя цитировать дословно или без указания источника. Все эти нюансы лежат за пределами возможностей robots.txt.
В итоге robots.txt остается полезным и нужным, но он больше не покрывает всего спектра взаимодействия сайта с ИИ-агентами. Это всё еще про доступ. А новая реальность — уже про правила использования контента.
LLMs.txt — что это вообще за файл
LLMs.txt — это попытка закрыть тот самый разрыв, который оставил robots.txt. Если robots.txt исторически отвечает за доступ поисковых роботов, то LLMs.txt появился как способ описать правила взаимодействия именно с ИИ-моделями и агентами. Не для индексации, а для использования контента.
Идея проста: дать сайту возможность явно заявить свою позицию. Что можно читать, что можно использовать, а что — нет. Причем отдельно от поисковых ботов, у которых свои задачи и своя логика.
Технически всё максимально приземленно. Файл размещается в корне сайта и представляет собой обычный текст. Его адресат — не только абстрактные «модели», а вполне конкретные сущности: LLM-краулеры, автономные агенты, ассистенты, AI-браузеры и всё то, что уже сегодня массово ходит по вебу без привычного User-Agent браузера.
Зачем вообще ограничивать ИИ-агентов
Первый и самый очевидный ответ: потому что не весь контент одинаково безопасен для свободного использования. У многих сайтов есть платные материалы, экспертные тексты, внутренняя документация или юридически чувствительная информация. В классической модели веба это решалось авторизацией или закрытием от индексации. В модели с ИИ-агентами этого уже недостаточно.
Риски тоже вполне прикладные. Контент могут пересказать без указания источника, вырвать фрагменты из контекста и использовать их в ответах так, что смысл будет искажен или просто утащить уникальные данные в обучающую выборку, после чего вернуть их в виде «обобщенного знания» без привязки к первоисточнику.
Есть и чисто бизнес-причина. Сайт всё чаще рискует превратиться в донора контента без трафика. Пользователь задал вопрос ИИ — получил ответ — на сайт не пришел. Формально информация использована, фактически ценность сайта, как канала коммуникации, обнулилась.
Отдельная головная боль — юридическая зона серого цвета. Можно ли использовать контент для обучения моделей? Можно ли применять его в коммерческих ответах? Где проходит граница между цитированием и переработкой? Четкого ответа на эти вопросы пока нет, и именно поэтому владельцы сайтов начинают заранее обозначать свою позицию, даже если она носит декларативный характер.
Когда, наоборот, ИИ-агентов стоит пускать
Для многих сайтов взаимодействие с ИИ-агентами может быть скорее возможностью, чем угрозой. Особенно если речь идет об экспертных, брендовых или информационных проектах. В таких случаях ИИ становится новым каналом дистрибуции контента. Упоминания в ответах ассистентов работают на узнаваемость бренда, усиливают экспертность и постепенно формируют новое поле видимости — не в поисковой выдаче, а в диалогах. По сути, это будущий аналог сниппетов, только без привычного SERP.
Если сайт системно производит качественный контент, ему часто выгоднее не прятаться, а, наоборот, помочь агентам правильно его интерпретировать и использовать. В долгосрочной перспективе это может оказаться важнее еще одной позиции в поиске.
Как LLM-агентам можно помочь
Главная идея здесь — снизить неопределенность. Чем меньше агенту приходится додумывать правила самостоятельно, тем ниже риск искажений и нежелательного использования контента. Можно явно обозначить, что разрешено читать, что допустимо использовать в ответах, а что нельзя включать вовсе. Можно подсказать, какие разделы сайта являются основными, где лежит актуальная документация, а где — справочная или второстепенная информация. Это особенно важно для сложных проектов, где без контекста легко сделать неправильные выводы. Как я уже сказал выше, LLMs.txt позволяет сайту сказать «Вот как со мной лучше работать». Это не гарантия соблюдения правил, но это сигнал. А в мире, где ИИ-агенты становятся всё более автономными, такие сигналы начинают играть всё более важную роль.
Синтаксис LLMs.txt
LLMs.txt — это текстовый файл для людей и ИИ. Никаких сложных форматов, JSON или YAML здесь нет. Главное правило: быть читаемым, чтобы любой агент мог быстро понять, что с сайтом можно делать. Официального стандарта пока не существует: нет RFC, нет обязательного парсера. Но сам факт наличия файла уже дает сигнал о намерениях владельца сайта.
Базовые директивы
User-agent — указывает, к какому ИИ-агенту применяются правила.
Allow/disallow — разрешает или запрещает доступ к разделам сайта.
Use-For-Training — можно ли использовать контент для обучения модели.
Use-For-Inference — разрешено ли включать контент в ответы.
Cite — как правильно цитировать источник, если агент использует информацию.
Contact — адрес для связи с владельцем сайта, если есть вопросы по использованию данных.
Пример простого LLMs.txt для публичного блога:
User-agent: *
Allow: /blog/
Disallow: /private/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/
Contact: legal@example.com
Здесь мы разрешаем агентам читать блог и включать его в ответы, но запрещаем использовать для обучения модели. Кроме того, даем ссылку для корректного цитирования и контакт на случай вопросов.
Другой пример: сайт с документацией и платным контентом:
User-agent: *
Allow: /docs/
Disallow: /premium/
Use-For-Training: no
Use-For-Inference: no
Cite: https://example.com/docs/
Contact: ai-rules@example.com
В этом случае ИИ может видеть только публичную документацию, не включать ее в обучение и не использовать в ответах, а платный контент полностью закрыт.
И наконец, для более избирательного подхода можно задавать правила под конкретные агенты:
User-agent: ChatGPT
Allow: /blog/
Use-For-Training: no
Use-For-Inference: yes
User-agent: BingAI
Allow: /blog/
Use-For-Training: yes
Use-For-Inference: yes
То есть один агент может использовать данные только для генерации ответов, а другой — еще и для обучения.
LLMs.txt — декларация намерений. Нет формальной гарантии, что любой агент ее соблюдет, но она показывает, как вы хотите, чтобы ваш контент использовался. И в мире автономных ИИ-агентов такой сигнал становится ценным инструментом контроля.
Примеры User-agent для LLMs.txt
Общие (универсальные):
- * — любой агент.
- LLM-Agent — общее название экспериментальных ИИ-краулеров.
Конкретные ИИ-платформы и ассистенты:
- ChatGPT — OpenAI GPT-агенты (например, ChatGPT или API-клиенты).
- BingAI — интеграция Bing Chat с LLM.
- Claude — агенты Anthropic.
- Bard — Google Bard.
- PerplexityAI — агенты Perplexity.
- Mistral — агенты Mistral.
- YouChat — агенты You.com.
Экспериментальные и обходные:
- AI-Crawler — общий краулер ИИ.
- SemanticBot — для семантических и аналитических агентов.
- TrainingBot — для сбора данных на обучение.
Примеры LLMs.txt для популярных CMS
WordPress
Для WordPress типичная цель — разрешить публичный контент (блог, справка), но закрыть административные разделы и черновики. При этом желательно указать правила цитирования.
# Общие правила для всех ИИ-агентов:
User-agent: *
Allow: /blog/
Allow: /help/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /private/
Disallow: /drafts/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/
Contact: legal@example.com
# Специальные правила для ChatGPT
User-agent: ChatGPT
Allow: /blog/
Allow: /help/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/blog/
Пояснения:
- /blog/ и /help/ — публичный контент, разрешено включать в ответы.
- /wp-admin/, /drafts/, /private/ — закрыты полностью.
- Use-For-Training: no — запрещаем обучение модели на этих данных.
- Cite — ссылка на источник для корректного цитирования.
Joomla
Для Joomla часто акцент делают на документации и публичных материалах, при этом закрывают служебные разделы и ограничивают обучение.
User-agent: *
Allow: /docs/
Allow: /help/
Disallow: /administrator/
Disallow: /cache/
Disallow: /tmp/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/docs/
Contact: support@example.com
User-agent: BingAI
Allow: /docs/
Use-For-Training: yes
Use-For-Inference: yes
Cite: https://example.com/docs/
Пояснения:
- Публичная документация доступна для чтения и использования в ответах.
- Служебные разделы (administrator, cache, tmp) полностью закрыты.
- Для некоторых агентов можно разрешить обучение (Use-For-Training: yes), если это стратегически выгодно.
Bitrix
Для Bitrix стандартно более жесткая политика: закрыты личные кабинеты, B2B-контент и API. Публичные страницы разрешены, остальное — нет.
User-agent: *
Allow: /public/
Disallow: /bitrix/admin/
Disallow: /personal/
Disallow: /api/
Disallow: /crm/
Use-For-Training: no
Use-For-Inference: yes
Cite: https://example.com/public/
Contact: webmaster@example.com
User-agent: Claude
Allow: /public/
Use-For-Training: yes
Use-For-Inference: yes
Cite: https://example.com/public/
Пояснения:
- /public/ — всё, что можно показывать ИИ и использовать в ответах.
- /personal/, /crm/, /api/ — закрытые разделы, недоступные для ИИ.
- Можно задавать отдельные правила под конкретных агентов (например, Claude), если есть желание давать расширенный доступ.
Связка robots.txt + LLMs.txt
Robots.txt и LLMs.txt — это два разных инструмента, которые дополняют друг друга.
Robots.txt по-прежнему остается инструментом технического контроля. Он отвечает на вопрос «Может ли агент зайти на страницу?» и помогает управлять обходом сайта, crawl-budget и скрывать служебные разделы.
LLMs.txt, в свою очередь, отвечает на более новый и тонкий вопрос «Что агент может делать с контентом после того, как он был прочитан?». Разрешено ли использовать материалы для обучения, включать в ответы, цитировать источник или лучше закрыть доступ.
Когда оба файла работают вместе, сайт получает более высокий уровень контроля. Robots.txt решает технические аспекты, а LLMs.txt формулирует правила использования. Вместе это снижает двусмысленность и показывает ИИ-агентам, что сайт осознанно и стратегически управляет взаимодействием с ними.
Что делать сайту уже сейчас
- Проверить robots.txt — убедиться, что служебные разделы закрыты, а публичный контент доступен. Определите, какую политику вы хотите вести: закрываться от ИИ полностью или взаимодействовать с ними.
- Добавить LLMs.txt — даже если формат неофициальный, это декларация намерений. Четко укажите, что разрешено читать, что включать в ответы, что запрещено для обучения, и добавьте ссылку на источник для цитирования.
- Следить за развитием стандарта — формат еще не закреплен официально, но уже активно обсуждается и поддерживается отдельными платформами. Регулярно проверяйте новости и обновления, чтобы при необходимости корректировать правила.
ИИ-агенты уже читают ваш сайт, но LLMs.txt помогает контролировать использование контента, снижает риск недопонимания и превращает новый канал ИИ в управляемый ресурс, а не в источник «бесконтрольного забора данных».