Источники и Методология

Прозрачность, точность и технологии. Рассказываем, как работает ИноМаркер изнутри.

Наши принципы

Мы создали ИноМаркер с одной главной целью: превратить сложный и постоянно меняющийся массив юридических данных в точный, понятный и доступный инструмент. Мы убеждены, что работа с информацией такой важности должна быть удобна, а еще лучше - автоматизирована.
Эта страница создана, чтобы подробно рассказать, откуда мы берем данные, как часто мы их обновляем и какие технологии используем для анализа вашего контента. Мы не просто показываем результат — мы объясняем, как мы к нему пришли

Только официальные первоисточники

Наша система не использует непроверенную информацию, данные из СМИ или вторичные агрегаторы. Мы работаем напрямую с официальными государственными перечнями, которые являются юридически значимыми. На данный момент наша база данных синхронизируется со следующими реестрами:

  • Перечень лиц, выполняющих функции иностранного агента
    Ведомство: Министерство юстиции Российской Федерации
    Ссылка на источник: reestrs.minjust.gov.ru
  • Перечень некоммерческих организаций, признанных экстремистскими
    Ведомство: Министерство юстиции Российской Федерации
    Ссылка на источник: minjust.gov.ru
  • Единый федеральный список организаций, признанных террористическими
    Ведомство: Федеральная служба безопасности Российской Федерации
    Ссылка на источник: fsb.ru

Цикл обновления данных

Понимая, насколько критична актуальность данных, мы построили полностью автоматизированную систему мониторинга, которая работает по следующему циклу:

  1. Ежечасная проверка: Наши серверы каждый час отправляют запросы к официальным источникам, чтобы проверить наличие изменений
  2. Ежедневный парсинг: Каждую ночь (в 03:00 по московскому времени) запускаются наши "умные" парсеры, которые скачивают и обрабатывают свежие версии всех реестров
  3. Логирование изменений: Система сравнивает новые данные со старыми. Если были добавлены новые лица/организации или удалены старые, информация об этом немедленно отправляется в виде отчета администраторам сервиса в Telegram
  4. Обновление баз: Данные в наших основных таблицах обновляются, а удаленные из официальных списков записи помечаются как неактивные, но не удаляются из нашей базы для сохранения истории
  5. Генерация ресурсов: Сразу после обновления баз запускается процесс пересборки всех зависимых ресурсов, включая .js файл для виджета

Методология анализа текста

Простой поиск по точному совпадению имени неэффективен и дает множество ошибок. Поэтому мы разработали многоступенчатый процесс, который обеспечивает максимальную точность:

  1. AI-генерация регулярных выражений: Для каждой записи в нашей базе мы используем нейросетевую модель для создания сложных регулярных выражений. Наш специально разработанный промпт "обучает" ИИ генерировать паттерны, которые учитывают все падежи, склонения, разговорные формы имен, псевдонимы и инициалы
  2. Итеративный поиск: Когда вы отправляете текст на проверку, наш TextMarkerService не создает одно гигантское выражение. Он последовательно, от самого длинного и сложного паттерна к самому короткому, применяет каждое регулярное выражение к вашему тексту. Это решает "проблему жадного совпадения" и гарантирует, что сначала будут найдены наиболее полные и точные упоминания
  3. "Умный" фильтр маркировки: Перед тем как пометить найденное совпадение, наш скрипт анализирует несколько слов после него. Если он обнаруживает уже существующую маркировку (например, звездочку * или скобки со словами (иноагент), (запрещен в РФ)), он пропускает это совпадение, чтобы не создавать дублирующую разметку и не портить уже отредактированный текст

Важное примечание

Сервис ИноМаркер является информационным инструментом и не предоставляет юридических консультаций. Вся информация агрегируется из официальных открытых источников и предоставляется "как есть". Ответственность за финальную маркировку и публикацию контента всегда лежит на редакции или авторе материала. Мы делаем все возможное для обеспечения точности и актуальности данных, но не можем нести ответственность за возможные изменения в законодательстве или ошибки в первоисточниках