Источники и Методология
Прозрачность, точность и технологии. Рассказываем, как работает ИноМаркер изнутри.
Наши принципы
Мы создали ИноМаркер с одной главной целью: превратить сложный и постоянно меняющийся массив юридических данных в точный, понятный и доступный инструмент. Мы убеждены, что работа с информацией такой важности должна быть удобна, а еще лучше - автоматизирована.
Эта страница создана, чтобы подробно рассказать, откуда мы берем данные, как часто мы их обновляем и какие технологии используем для анализа вашего контента. Мы не просто показываем результат — мы объясняем, как мы к нему пришли
Только официальные первоисточники
Наша система не использует непроверенную информацию, данные из СМИ или вторичные агрегаторы. Мы работаем напрямую с официальными государственными перечнями, которые являются юридически значимыми. На данный момент наша база данных синхронизируется со следующими реестрами:
-
Перечень лиц, выполняющих функции иностранного агента
Ведомство: Министерство юстиции Российской Федерации
Ссылка на источник: reestrs.minjust.gov.ru -
Перечень некоммерческих организаций, признанных экстремистскими
Ведомство: Министерство юстиции Российской Федерации
Ссылка на источник: minjust.gov.ru -
Единый федеральный список организаций, признанных террористическими
Ведомство: Федеральная служба безопасности Российской Федерации
Ссылка на источник: fsb.ru
Цикл обновления данных
Понимая, насколько критична актуальность данных, мы построили полностью автоматизированную систему мониторинга, которая работает по следующему циклу:
- Ежечасная проверка: Наши серверы каждый час отправляют запросы к официальным источникам, чтобы проверить наличие изменений
- Ежедневный парсинг: Каждую ночь (в 03:00 по московскому времени) запускаются наши "умные" парсеры, которые скачивают и обрабатывают свежие версии всех реестров
- Логирование изменений: Система сравнивает новые данные со старыми. Если были добавлены новые лица/организации или удалены старые, информация об этом немедленно отправляется в виде отчета администраторам сервиса в Telegram
- Обновление баз: Данные в наших основных таблицах обновляются, а удаленные из официальных списков записи помечаются как неактивные, но не удаляются из нашей базы для сохранения истории
- Генерация ресурсов: Сразу после обновления баз запускается процесс пересборки всех зависимых ресурсов, включая
.jsфайл для виджета
Методология анализа текста
Простой поиск по точному совпадению имени неэффективен и дает множество ошибок. Поэтому мы разработали многоступенчатый процесс, который обеспечивает максимальную точность:
- AI-генерация регулярных выражений: Для каждой записи в нашей базе мы используем нейросетевую модель для создания сложных регулярных выражений. Наш специально разработанный промпт "обучает" ИИ генерировать паттерны, которые учитывают все падежи, склонения, разговорные формы имен, псевдонимы и инициалы
-
Итеративный поиск: Когда вы отправляете текст на проверку, наш
TextMarkerServiceне создает одно гигантское выражение. Он последовательно, от самого длинного и сложного паттерна к самому короткому, применяет каждое регулярное выражение к вашему тексту. Это решает "проблему жадного совпадения" и гарантирует, что сначала будут найдены наиболее полные и точные упоминания -
"Умный" фильтр маркировки: Перед тем как пометить найденное совпадение, наш скрипт анализирует несколько слов после него. Если он обнаруживает уже существующую маркировку (например, звездочку
*или скобки со словами(иноагент),(запрещен в РФ)), он пропускает это совпадение, чтобы не создавать дублирующую разметку и не портить уже отредактированный текст
Важное примечание
Сервис ИноМаркер является информационным инструментом и не предоставляет юридических консультаций. Вся информация агрегируется из официальных открытых источников и предоставляется "как есть". Ответственность за финальную маркировку и публикацию контента всегда лежит на редакции или авторе материала. Мы делаем все возможное для обеспечения точности и актуальности данных, но не можем нести ответственность за возможные изменения в законодательстве или ошибки в первоисточниках