Источники и Методология

Прозрачность, точность и технологии. Рассказываем, как работает ИноМаркер изнутри.

Наши принципы

Мы создали ИноМаркер с одной главной целью: превратить сложный и постоянно меняющийся массив юридических данных в точный, понятный и доступный инструмент. Мы убеждены, что работа с информацией такой важности должна быть удобна, а еще лучше - автоматизирована.
Эта страница создана, чтобы подробно рассказать, откуда мы берем данные, как часто мы их обновляем и какие технологии используем для анализа вашего контента. Мы не просто показываем результат — мы объясняем, как мы к нему пришли

Только официальные первоисточники

Наша система не использует непроверенную информацию, данные из СМИ или вторичные агрегаторы. Мы работаем напрямую с официальными государственными перечнями, которые являются юридически значимыми. На данный момент наша база данных синхронизируется со следующими реестрами:

Перечень лиц, выполняющих функции иностранного агента
Ведомство: Министерство юстиции Российской Федерации
Ссылка на источник: reestrs.minjust.gov.ru
Перечень некоммерческих организаций, признанных экстремистскими
Ведомство: Министерство юстиции Российской Федерации
Ссылка на источник: minjust.gov.ru
Единый федеральный список организаций, признанных террористическими
Ведомство: Федеральная служба безопасности Российской Федерации
Ссылка на источник: fsb.ru

Цикл обновления данных

Понимая, насколько критична актуальность данных, мы построили полностью автоматизированную систему мониторинга, которая работает по следующему циклу:

Ежечасная проверка: Наши серверы каждый час отправляют запросы к официальным источникам, чтобы проверить наличие изменений
Ежедневный парсинг: Каждую ночь (в 03:00 по московскому времени) запускаются наши "умные" парсеры, которые скачивают и обрабатывают свежие версии всех реестров
Логирование изменений: Система сравнивает новые данные со старыми. Если были добавлены новые лица/организации или удалены старые, информация об этом немедленно отправляется в виде отчета администраторам сервиса в Telegram
Обновление баз: Данные в наших основных таблицах обновляются, а удаленные из официальных списков записи помечаются как неактивные, но не удаляются из нашей базы для сохранения истории
Генерация ресурсов: Сразу после обновления баз запускается процесс пересборки всех зависимых ресурсов, включая .js файл для виджета

Методология анализа текста

Простой поиск по точному совпадению имени неэффективен и дает множество ошибок. Поэтому мы разработали многоступенчатый процесс, который обеспечивает максимальную точность:

AI-генерация регулярных выражений: Для каждой записи в нашей базе мы используем нейросетевую модель для создания сложных регулярных выражений. Наш специально разработанный промпт "обучает" ИИ генерировать паттерны, которые учитывают все падежи, склонения, разговорные формы имен, псевдонимы и инициалы
Итеративный поиск: Когда вы отправляете текст на проверку, наш TextMarkerService не создает одно гигантское выражение. Он последовательно, от самого длинного и сложного паттерна к самому короткому, применяет каждое регулярное выражение к вашему тексту. Это решает "проблему жадного совпадения" и гарантирует, что сначала будут найдены наиболее полные и точные упоминания
"Умный" фильтр маркировки: Перед тем как пометить найденное совпадение, наш скрипт анализирует несколько слов после него. Если он обнаруживает уже существующую маркировку (например, звездочку * или скобки со словами (иноагент), (запрещен в РФ)), он пропускает это совпадение, чтобы не создавать дублирующую разметку и не портить уже отредактированный текст

Важное примечание

Сервис ИноМаркер является информационным инструментом и не предоставляет юридических консультаций. Вся информация агрегируется из официальных открытых источников и предоставляется "как есть". Ответственность за финальную маркировку и публикацию контента всегда лежит на редакции или авторе материала. Мы делаем все возможное для обеспечения точности и актуальности данных, но не можем нести ответственность за возможные изменения в законодательстве или ошибки в первоисточниках