6.3.2.2. Сценарий добавления набора через HTML-парсер

6.3.2.2 Сценарий добавления набора через HTML-парсер;

Парсер обеспечивает возможность сбора паспортов, самих наборов ОД с официальных сайтов, порталов, информационных систем государственной власти и местного самоуправления в целях помещения их в единое хранилище открытых данных. Настройка перечня источников осуществляется из закрытого контура Системы

Добавление набора ОД через html-парсер осуществляется администратором портала, который через специализированную форму Панели администратора запускает механизм получения данных. После этого, система выполняет переход на указанный URL адрес страницы.

При парсинге html-страницы производятся ряд проверок, которые затрагивают как паспорт набора ОД, так и файл набора ОД и структуры набора ОД.

В частности, паспорт набора ОД проверяется на точное соответствие критериям, которые указаны в пункте 6.2.1 Методических рекомендаций. Проверяются следующие поля паспорта набора ОД:

- Идентификационный номер

- Наименование набора ОД

- Описание набора ОД

- Владелец набора ОД

- Ответственное лицо

- Телефон ответственного лица

- Адрес электронной почты ответственного лица

- Гиперссылка (URL) на открытые данные

- Формат набора ОД

- Описание структуры набора ОД

- Дата первой публикации набора ОД

- Дата последнего внесения изменений

- Содержание последнего изменения

- Дата актуальности набора ОД

- Ключевые слова, соответствующие содержанию набора данных

- Гиперссылки (URL) на версии открытых данных

- Гиперссылки (URL) на версии структуры набора ОД

- Версия методических рекомендаций

Также выполняется проверка файла набора ОД и структуры набора ОД на соответствие следующим критериям:

- Один из следующих форматов файлов:

- CSV

- XML

- JSON

- Форматы файлов набора ОД и структуры набора ОД должны совпадать

- Количество полей файла набора ОД и их описание в структуре набора ОД должны совпадать.

- Количество записей в файле набора ОД должно составлять не менее 10

- Файлы должны находиться в кодировке UTF-8