29.03.2024

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

Вчера Новости Веб-сервисы Исторические рукописи, которые сложно разобрать человеку, искусственный интеллект почти мгновенно превращает в печатный текст.

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

Виктор Подволоцкий

Автор Лайфхакера

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

«Яндекс» запустил новый сервис «Поиск по архивам», который при помощи нейросетей расшифровывает архивные записи со сложной дореволюционной орфографией.

Сервис открывает доступ к более чем 2,5 миллионам страниц исторических документов с текстовой расшифровкой. Его алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов.

Специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров.

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти мгновенно превращает в печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.

Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Также в базе есть документы из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.

Искать можно по материалам XVIII – начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям.

«Яндекс» научил нейросети расшифровывать архивные записи со сложной орфографией

Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями. Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

Обложка: «Яндекс»