Text
                    Подпишитесь на DeepL Pro и переводите документы большего объема.
Подробнее на www.DeepL.com/pro.

arXiv:2201.07661v1 [cs.CV] 19 января 2022 г.

Распознавание рукописного текста на
средневековых манускриптах с открытым
исходным кодом с помощью смешанных моделей
и специфической для каждого документа
настройки
Кристиан Реул1, Штефан Томасек1, Флориан Лангханки1 и Уве Шпрингманн2
Университет В
ӱ рцбурга, Германия
christian.reul@uni-wuerzburg.de
stefan.tomasek@germanistik.uni-wuerzburg.de
florian.langhanki@uni-wuerzburg.de
2 CIS, LMU Munich, Германия
springmann@cis.uni-muenchen.de
1

Аннотация. В данной статье рассматривается задача практического
распознавания рукописного текста (HTR) на немецких средневековых
рукописях с открытым исходным кодом. Мы сообщаем о наших усилиях по
построению смешанных моделей распознавания, которые могут
применяться "из коробки" без дополнительного обучения по конкретным
документам, но также служат отправной точкой для доработки путем
обучения новой модели на нескольких страницах расшифрованного текста
(ground truth). Для обучения смешанных моделей мы собрали корпус из 35
рукописей и около 12,5 тыс. текстовых строк для двух широко
распространенных стилей почерка, готического и бастардийского. Оценка
смешанных моделей "из коробки" на четырех неизвестных рукописях
привела к среднему коэффициенту ошибок символов (CER) в 6,22 %. После
обучения на 2, 4 и в конечном итоге 32 страницах CER снизился до 3,27 %,
2,58 % и 1,65 % соответственно. Хотя распознавание и обучение моделей
внутри области (модель Бастарда - материал Бастарда, готика - готика), как
ни странно, дало наилучшие результаты, донастройка моделей вне области
на невидимые сценарии все же оказалась лучше, чем обучение с нуля. Наши
новые смешанные модели были открыты для общественности.
Ключевые слова: распознавание рукописного текста - средневековые
манускрипты - смешанные модели - тонкая настройка для конкретного документа

1

Введение

Эффективные методы автоматического распознавания текста (ATR) на изображениях
печатных (OCR) или рукописных (HTR) материалов зависят от наличия
предварительно обученных моделей распознавания, которые были натренированы на
широком спектре различных глифов (конкретных воплощений алфавита символов на
бумаге), которые требуется распознать. Соответствующим образом обученные
смешанные модели позволяют получить коэффициент ошибок символов (CER) ниже
2 % даже для исторических печатных материалов, ранее недоступных для
автоматического распознавания [15]. Автоматически расшифрованный текст, полученный в
результате применения готовых смешанных моделей, будет


2 C. Реул и др. Уже сейчас они позволяют использовать такие функции, как поиск, и могут позволить проводить корпусные аналитические исследования при наличии больших текстовых коллекций. Для решения других задач, таких как определение отсутствия в тексте определенных слов или подготовка критического издания, необходимо добиться гораздо меньшего количества ошибок. Прежде чем приступать к трудоемкому проекту ручной коррекции, на помощь снова могут прийти автоматические методы. По примеру Бройля и других [1] было показано, что можно обучать модели, основанные на нейросетях, специфичных для печати, которые дают лучшие результаты, чем смешанные модели [17], которые, в свою очередь, обеспечивают отличную отправную точку для процедуры обучения [13]. В конце концов, даже при использовании таких тонко настроенных моделей может потребоваться ручная коррекция результата. Однако наилучшим способом достижения цели - определенного приемлемого уровня остаточных ошибок (ни один печатный текст никогда не может быть на 100% безошибочным) при минимальных затратах человеческого труда - является сочетание готового распознавания с так называемым итеративным подходом к обучению (ITA), который уже показал свою высокую эффективность при работе с ранними печатными книгами [12]. Идея заключается в постоянном переобучении специализированных моделей на вручную транскрибированных строках (Ground Truth, GT), применении их к новым данным и использовании постоянно растущей точности для поддержания уровня ошибок и, следовательно, требуемых усилий по исправлению на минимально возможном уровне. Хотя ранее было показано, что описанный выше метод хорошо работает с печатными материалами, здесь мы сообщаем об экспериментах со средневековыми немецкими рукописями. Поскольку рукописный материал гораздо менее регулярный, чем печатный текст, что обусловлено различием глифов у разных авторов и даже у одного и того же автора, мы ожидаем значительно более высокий процент ошибок. Насколько низкий процент ошибок может быть достигнут при использовании предварительно обученной смешанной модели, которая настраивается на конкретный документ с небольшими усилиями (несколько страниц GT), - вот тема данной работы. Вторая цель - изучить, какие усилия требуются для обучения точной модели на основе смешанной модели. Поскольку мы делаем наши модели открытыми3, возникает вопрос: какого повышения качества распознавания можно добиться, постоянно тренируя точную модель на все большем объеме сгенерированных GT? Третья цель - изучить возможность адаптации смешанной модели области учебного материала, на котором она основана. Можно ли будет успешно доработать смешанную модель с несколькими страницами GT под рукопись, выходящую за пределы домена? Оставшаяся часть статьи построена следующим образом: После обзора смежных работ в разделе 2 мы представляем данные, необходимые для обучения и оценки в разделе 3, и объясняем методологию наших экспериментов в разделе 4. Эксперименты описаны в разделе 5 и обсуждаются в разделе 6, а раздел 7 завершает статью. 3 https://github.com/Calamari-OCR/calamari_models_experimental
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом 2 Связанные работы За подробным обзором литературы о методах HTR мы обращаемся к недавнему обзору Мемона и др [8] и описанию набора эталонных вычислений Санчеса и др [16]. Платформа Transkribus [6] предлагает обширный выбор общедоступных моделей4 для различных языков и эпох. Однако из 85 моделей, доступных на момент написания статьи, только 14 можно использовать с открытым исходным кодом5 движка PyLaia [10], в то время как подавляющее большинство (71 модель) доступно только для проприетарного движка HTR+ [9], который можно использовать исключительно через Transkribus. Подавляющее большинство публичных моделей было обучено на текстах 16 века или более поздних. Хоук и др. (см. [4]) сообщили об экспериментах со смешанными моделями при работе с каролинскими минускриптами с помощью движка OCRopus OCR6. Несколько экспериментов с разным количеством различных рукописей в обучающем наборе показали, что при применении смешанной модели к рукописи, которая не была частью обучающего набора, модели, обученные на более широком разнообразии рукописей, работают лучше. Однако когда модель применяется к материалу, который модель уже видела во время обучения (одна и та же рукопись, но разные страницы), тенденция в основном обратная. В работе [18] St¨okl Ben Ezra et al. представлен открытый аннотированный набор данных7 и предварительно обученная модель для распознавания и разделения страниц на средневековых ивритских манускриптах, а также смешанная модель. Ходель и другие [5] рассматривают смешанные модели для немецкого . Они представляют открытый тестовый набор8, состоящий из 2 426 строк, собранных из протоколов заседаний Федерального совета Швейцарии в период с 1848 по 1903 год. Оценка трех моделей HTR+ и одной модели PyLaia Kurrent на тестовом наборе привела к медианным значениям CER от 2,76 % до 13,30 %. 3 Наборы данных Для проведения экспериментов нам потребовалось собрать и предоставить данные как в виде изображений страниц средневековых манускриптов, так и в виде соответствующих ГТ в форме дипломатических9 (т.е. верных письменному изображению) транскрипций. Обучающие и оценочные наборы, которые мы собрали, описаны в этом разделе. Для обеспечения максимальной гибкости и связности мы всегда собирали исходные цветные изображения и использовали формат PAGE XML [11] для хранения любой дополнительной информации, такой как координаты областей и линий, расшифровки и т. д. https://readcoop.eu/transkribus/public-models https://github.com/jpuigcerver/PyLaia 6 https://github.com/ocropus/ocropy 7 https://zenodo.org/record/5167263 8 https://zenodo.org/record/4746342 9 https://en.wikipedia.org/wiki/Diplomatics#Diplomatic_editions_and_ транскрипция 4 5 3
4 C. Реул и др. Таблица 1. Обучающие данные, использованные в наших экспериментах. Помимо подкорпуса, мы указываем количество рукописей, а также соответствующее количество страниц и строк (всех и отобранных для обучения). подкорпус все # страницы # строки # работы Добрая жизнь Иисуса Парцифаль Верные транскрипции Мариенлебен Медицинские трактаты 5 6 12 6 6 Сумма 35 128 36 73 28 26 291 6,244 1,685 2,483 1,232 891 12,535 выбранные века # страницы # 13 14 15 16 строки 18 19 44 19 21 121 576 771 1,381 791 699 3 2 1 2 4 1 4,218 4 9 21 6 9 2 4 1 1 Наш учебный корпус был собран и создан из различных источников и в рамках нескольких проектов, представленных в таблице 1: проект редактирования Kindheit Jesu ("Детство Иисуса") в Университете В ӱ рцбурга, проект цифрового редактирования Parzival ("Персиваль")10 в Университете Берна, некоторые теологические рукописи, переписанные в ходе транскрибационного марафона Faithful Transcriptions11 [3], несколько манускриптов, содержащих Marienleben ("Жизнь Марии"), и несколько средневековых медицинских трактатов. Эти рукописи были выбраны таким образом, чтобы охватить как промежуток в несколько веков (с 13-го по 16-й) происхождения, так и определенное разнообразие стилей письма, характерных для этого времени: готика и бастардийская скоропись.12 Страницы рукописей из первых двух проектов были транскрибированы вручную, в то время как для двух последних проектов сегментация изображений и последующая транскрипция были выполнены с помощью фреймворка OCR4all13 с открытым исходным кодом. Все ранее существовавшие транскрипции должны были быть адаптированы к нашим рекомендациям по транскрипции, чтобы обеспечить единообразное представление глифов и знаков. В общей сложности учебный фонд состоит из 35 рукописей, содержащих около 12,5 тыс. строк, которые можно разделить на около 8,5 тыс. строк готических и около 4 тыс. строк бастардийских прописей. На рисунке 1 показаны некоторые репрезентативные примеры строк и соответствующие им транскрипции. Для оценки наших моделей мы собрали 212 страниц, содержащих около 9 тысяч строк, из пяти дополнительных рукописей, три из которых написаны на готском и две на бастарнском курсивах (см. рис. 2 для примера некоторых строк): Одна рукопись, содержащая Kindheit Jesu (Handschrift-B), две дополнительные рукописи о жизни Марии (Driu liet von der maget ), написанные братом Вернером (Wernher-Krakau и Wernher-Wien), а в качестве примеров Бастарды мы выбрали две рукописи из https://www.parzival.unibe.ch/englishpresentation.html https://lab.sbb.berlin/events/faithful-transcriptions-2/?lang=en 12 https://www.adfontes.uzh.ch/tutorium/schriften-lesen/schriftgeschichte/ bastardaund-gotische-kursive 13 https://github.com/ocr4all 10 11
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом Рис. 1. Два линейных изображения для каждой из шести репрезентативных рукописей и их соответствующая транскрипция для обучающего корпуса (вверху: готика, внизу: бастарда). Моральное учение "Вельский гаст", написанное Томасиной фон Цирклаер14 (Гаст-1 и Гаст-2) из проекта цифровой редакции Гейдельбергского университета. Вернер-Вен был написан рукой, уже присутствующей в обучающих данных, и добавлен для сравнения. Для наших экспериментов мы случайным образом выбрали 32 страницы в качестве максимального обучающего набора, а затем неоднократно сокращали его пополам, чтобы получить следующие наборы, состоящие из 16, 8, 4 и 2 страниц. Оставшиеся данные мы использовали в качестве фиксированного набора для оценки. Подробности приведены в таблице 2. Рис. 2. Два линейных изображения и соответствующая транскрипция для пяти рукописей, использованных для оценки. Вверху: Handschrift-B, Wernher-Krakau, Wernher-Wien; внизу: Гаст-1, Гаст-2 4 Методы Обучение смешанным моделям, которые могут применяться как "из коробки", так и служить отправной точкой для обучения по конкретным документам, - сложная задача: С одной стороны, модели должны быть очень надежными и хорошо обобщаться на как большем количестве документов. С другой , модели должны быть достаточно 14 https://digi.ub.uni-heidelberg.de/wgd 5
6 C. Реул и др. Таблица 2. Количество доступных страниц и строк для оцениваемых рукописей, разделенных на фиксированный набор для оценки (Eval ) и пять обучающих партий для ITA (Train). Рукопись Handschrift-B Вернер-Кракау Вернер-Вен Гаст-1 Гаст-2 Дата Eval # страницы строки # 1250-1275 1200-1225 1250-1275 8 18 10 592 363 241 152 49 49 304 96 98 607 197 196 1.215 349 391 2.430 687 752 8 8 546 222 141 58 261 114 521 217 1.070 442 2.160 881 1450-1475 ок. 1300 Поезд # строк для # страниц 2 4 8 16 32 специально предназначенные для определенного типа материала, чтобы добиться наилучших результатов. Чтобы справиться с этой проблемой, мы разработали следующую схему, в которой каждое обучение начинается с модели, полученной на предыдущем этапе: 1. Сильная смешанная модель для печатных типов, основанная на [15], служит основой для всех процессов обучения. Несмотря на очевидное отличие от рукописного ма-териала, мы ожидаем, что это обеспечит лучшую отправную точку по сравнению с началом с нуля, т. е. случайным распределением параметров. 2. Оба стиля почерка (готика и бастарда) обучаются вместе, чтобы предоставить модели как можно больше данных для изучения общих особенностей, адаптации к шуму и т. д. В результате получается комбинированная смешанная модель, охватывающая оба стиля. 3. Наконец, существующие модели уточняются путем обучения исключительно на данных готического шрифта или бастарда, соответственно. В результате получается смешанная модель для каждого стиля почерка. Важным фактором при работе с ATR или глубоким обучением в целом является выбор и оптимизация гиперпараметров, которые определяют структуру сети. Мы воздерживаемся от оценки широкого разнообразия конфигураций, но придерживаемся следующих сетей, которые показали себя очень полезными в прошлом и предопределены в открытом исходном коде 15 движка Calamari ATR [19], который мы использовали для наших экспериментов: – def : Оригинальная и сравнительно неглубокая структура сети Каламари по умолчанию, состоящая из двух конволюционных нейронных сетей (CNN) (40 и 60 фильтров 3x3 соответственно), за каждой из которых следует слой объединения 2x2 max, а за ним - слой LSTM с 200 ячейками, использующий dropout (0,5)16. – htr+: Адаптация стандартной сетевой структуры платформы Transkribus с более сложными вариациями относительно размеров фильтров, страйдов и т. д. (подробнее см. [9]). 15 16 https://github.com/Calamari-OCR/calamari В краткой нотации Каламари: conv=40:3x3,pool=2x2,conv=60:3x3,pool=2x2,lstm=200,dropout=0.5
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом – deep3 : Альтернативная структура глубокой сети, которая расширяет сеть по умолчанию еще одним конволюционным слоем и двумя дополнительными LSTM. Эта сеть дала хорошие результаты во время наших предыдущих экспериментов со смешанными моделями для печатных материалов и становится новой сетью по умолчанию в Calamari17. По аналогии с методом, описанным в [15], мы применяем двухэтапный подход к обучению, чтобы уменьшить влияние нескольких перепредставленных рукописей и при этом использовать все доступные данные для обучения: Для каждого отдельного шага в процессе обучения мы сначала проводим обучение на всех доступных данных, чтобы показать модели как можно больше материала. Затем, на так называемом этапе уточнения, мы используем полученную на первом этапе модель в качестве отправной точки и запускаем еще один полный процесс обучения, используя только выбранные страницы для каждой рукописи. Выбранные страницы были определены заранее путем случайного рисования отдельных страниц до тех пор, пока не будет превышено заданное количество строк или не будут нарисованы все страницы для одной рукописи. Поскольку почти все произведения содержат более 150 строк ГТ или, по крайней мере, близки к ним, мы выбрали это число в качестве граничного значения. Таким образом, создается сбалансированный обучающий корпус, в котором все манускрипты имеют одинаковый вес. Во-вторых, мы варьировали исходные данные, используя различные результаты предварительной обработки, т. е. в основном различные методы бинаризации, что также можно рассматривать как форму увеличения данных. Мы использовали два метода из пакета ocrd-olena18 (Wolf, Sauvola MS Split), бинарный и нормализованный полутоновый вывод, созданный скриптом ocropus-nlbin в OCRopus, а также технику бинаризации SBB19. Как уже говорилось во введении, наиболее экономически эффективный способ достижения низкого уровня ошибок заключается в том, чтобы по возможности отказаться от ручной коррекции, построив более совершенные модели распознавания и заменив таким образом человеческие усилия более высокой, но гораздо более дешевой вычислительной нагрузкой. Проблема скорейшего достижения приемлемой точности распознавания решается с помощью так называемого итеративного подхода к обучению [12], который состоит из следующих шагов: 1. Транскрибируйте небольшое количество строк с нуля или исправьте вывод подходящей смешанной модели, если таковая имеется 2. Обучите модель для конкретного документа, используя все доступные GT (включая GT из предыдущих итераций) 3. Примените модель к другим линиям, которые еще не были расшифрованы 4. Корректировка вывода 5. Повторите шаги 2-4 В данной работе ITA используется дважды: Во-первых, при транскрибировании рукописей для получения исходных GT для набора оценок. Во-вторых, мы имитируем ИТА во время второго эксперимента, итеративно удваивая количество обучающих страниц. В краткой нотации Каламари: conv=40:3x3,pool=2x2,conv=60:3x3,pool=2x2,conv=120:3x3,pool=2x2, lstm=200,lstm=200,lstm=200,dropout=0.5 18 https://github.com/OCR-D/ocrd_olena 19 https://github.com/qurator-spk/sbb_binarization 17 7
8 C. Реул и др. 5 Эксперименты Для наших экспериментов мы использовали Calamari версии 2.1. Все тренировки проводились по методике перекрестного обучения, описанной в [14], при которой создается ансамбль из пяти отдельных избирателей и объединяются их соответствующие результаты через значения уверенности каждого отдельного распознанного символа. Помимо более высоких результатов, это также значительно уменьшает разброс результатов. Кроме того, мы использовали одно и то же случайное зерно для экспериментов, чтобы стандартизировать все процессы, связанные со случайностью (перетасовка данных, увеличение и т. д.). Для определения окончания каждого процесса обучения мы использовали стандартный критерий ранней остановки, который оценивает текущую модель по сравнению с данными валидации после каждой эпохи. Обучение прекращается, если валидационный CER не улучшился в течение пяти последовательных раз, но не позднее чем через 100 эпох. Количество выборок, после которых проводится оценка, зависит от размера соответствующего обучающего набора, но всегда составляет не менее 1 000 шагов. В отношении дополнительных (гипер-) параметров мы придерживались стандартных настроек Calamari и хорошо зарекомендовавших себя лучших практик. В первую очередь это включает пятикратное увеличение каждого образца с помощью преобразований, ухудшающих изображение, для каждой написанной строки, а также использование общего затухания веса 10− 5 для всех слоев и затухания веса EMA 0,99. Результат распознавания модели оценивается по сравнению с GT с помощью расстояния редактирования Левенштейна, которое измеряет CER. Что касается предварительной обработки, то в наших экспериментах для распознавания и обучения используется исключительно результат бинаризации sbb, поскольку Он доказал, что обеспечивает хорошие результаты при различных условиях съемки. 5.1 Определение оптимальной стартовой модели Сначала мы провели лишь несколько отдельных экспериментов, чтобы определить наилучший общий подход к структуре сети и степени обобщения смешанных моделей. 1. Начните с небольшого количества GT, чтобы получить первую модель для конкретной книги, которая, надеемся, уже значительно превосходит первоначальную смешанную модель. 2. Постройте сильную специализированную модель, применяя процедуру ITA с итеративным добавлением новых обучающих данных в пул обучения. Выходные данные этой модели уже могут быть достаточными для многих случаев использования и позволяют эффективно оставшиеся ошибки вручную. Все процессы обучения выполняются для каждой из трех представленных выше структур сети (default, htr+ и deep3). Для изучения влияния различных стилей почерка мы сравнили результаты комбинированной, бастардовской и готической моделей, обученных в соответствии с разд. 4. Несмотря на эти различия, все тренировки соответствуют двухэтапной процедуре обучения: 1) обучение на всех доступных страницах, 2) используйте результаты, полученные в пункте 1), и доработайте их на более сбалансированном наборе выбранных страниц. Мы оцениваем полученные модели на двух выбранных произведениях - ВернерКракау (готический шрифт) и Гаст-1 (бастарда). Для каждого из произведений мы определяем подмножество
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом Таблица 3. В верхней части таблицы приведены значения CER (в %) для двух рукописей Wernher-Krakau (готская) и Gast-1 (бастардинская), распознанных с помощью трех предварительно обученных смешанных моделей (комбинированной, бастардинской и готской). CERs - это усредненные результаты "из коробки" и после обучения для конкретного документа на 4 и 16 страницах, приведенные для трех различных структур сети (по умолчанию, htr+ и deep3 ). Наконец, CER снова усреднены для каждой сети (последний столбец) и каждой предварительно обученной модели (последняя строка). Соответствующие лучшие значения выделены жирным шрифтом. =В нижней части таблицы приведены значения CER после обучения с нуля (без предварительной подготовки) и с предварительно обученными моделями (из коробки, после обучения на 4 и 16 страницах) для сети deep3. Вернер-Кракау Гаст-1 авг. Комбинированная готика Бастарда комбинированная готика Бастарда Сеть по умолчан ию htr+ глубина3 4.62 9.16 4.44 6.23 5.85 16.51 7.80 2.98 3.15 6.79 6.88 3.23 3.05 4.42 3.82 4.24 3.97 12.25 10.05 5.65 5.15 Avg. 3.58 7.61 3.57 4.82 4.69 12.93 - Подробные результаты для сети deep3 Сеть без ПТ в сочетании с Бастарда Готик без ПТ в сочетании с Бастарда Готик ootb 4 16 5.27 2.29 6.53 1.62 1.31 16.56 2.51 1.56 6.21 1.59 1.35 8.33 2.89 6.92 2.71 1.82 7.24 2.80 1.88 24.88 3.28 1.99 оценочных страниц, которые остаются неизменными для всех последующих экспериментов, чтобы обеспечить сопоставимость. В таблице 3 подведены итоги. Как и ожидалось, две глубокие сети работают значительно лучше, чем мелкие, при этом deep3 достигает самого низкого среднего CER (5,15% по сравнению с 5,65%/7,80% для def/htr+). Применение моделей Bastarda к материалу Bastarda и Gothic к Gothic дает наилучшие результаты, за которыми следует комбинированная модель. Основываясь на этих результатах, мы будем проводить дальнейшие эксперименты, используя deep3 в качестве структуры сети и всегда применяя наиболее подходящую (аналогичную) модель. 5.2 Итеративное обучение с учетом специфики документов После определения лучшей стартовой модели мы хотим более детально рассмотреть поведение моделей, созданных в ходе ITA. Этот эксперимент на всех пяти доступных для оценки рукописях. Для имитации ITA мы определяем фиксированные страницы обучения для каждой итерации процесса обучения. Из практических соображений мы всегда придерживаемся полных страниц, независимо от их количества строк или лексем. Мы начинаем с очень доступного объема ГТ, состоящего всего из двух страниц, и всегда удваиваем это количество в течение следующих итераций (2, 4, 8, 16 и 32 страницы), где каждый набор страниц полностью поглощает предыдущий. Обратите внимание, что каждая итерация начинается с исходной смешанной модели, а не с модели, полученной во время предыдущей итерации. Это важно, поскольку мы ожидаем, что 9
10 C. Реул и др. Таблица 4. В каждой строке перечислены CER и коэффициент улучшения (%), полученные в результате обучения на заданном количестве страниц (# pages), причем в строке 0 показаны результаты, полученные "из коробки". Каждое обучение проводилось как с нуля (столбец FS ), так и с использованием предварительно обученной модели в качестве отправной точки (PT ). В столбце Impr. показано улучшение PT по сравнению с FS и PT по сравнению с предыдущей итерацией. Вернер-Вен - особенный случай, поскольку он был создан рукой, уже присутствующей в обучающих данных, и, таким образом, представляет собой истинное применение нашей предварительно обученной модели в конкретной области. Поэтому он не включен в средние значения, приведенные в последнем нижнем столбце Avg. All. # страниц ы Wernher-Krakau Handschrift B FS PT Импр. FS PT Impr. - 6.21 - - 2 13.67 1.95 86/69 10.73 2.61 76/47 12.20 2.28 81/59 22.42 2.39 89/20 4 5.27 1.59 70/19 7.68 2.30 70/12 6.48 1.95 70/15 7.95 2.11 74/12 8 2.57 1.45 44/9 4.07 1.89 54/18 3.32 1.67 50/14 4.24 1.99 53/6 16 2.29 1.35 41/7 3.81 1.64 57/13 3.05 1.50 51/11 3.10 1.84 41/8 32 1.56 1.31 16/3 3.30 1.38 58/16 2.43 1.35 45/10 2.33 1.57 33/15 # страниц ы FS FS Гаст-2 PT Impr. Авг. Бастарда FS PT Impr. FS 0 - 7.24 - - 2 16.69 3.50 79/52 43.39 5.00 89/24 30.04 4.25 86/38 21.12 3.27 85/48 4 8.33 2.80 66/20 21.68 3.61 83/28 15.01 3.21 79/25 10.74 2.58 76/21 8 4.65 2.26 51/19 11.98 3.09 74/14 8.32 2.68 68/17 5.82 2.17 63/16 16 2.89 1.88 35/17 6.12 2.87 53/7 4.51 2.38 47/11 3.78 1.94 49/11 32 2.26 1.64 27/13 3.73 2.25 40/22 3.00 1.95 35/18 2.71 1.65 39/15 6.54 - - - - 5.55 6.89 - Вернер-Вен FS PT Impr. 0 Гаст-1 PT Импр. 4.90 Авг. Готика FS PT Impr. - - 2.99 - Avg. Все PT Impr. - 6.22 - знания о смешанной модели постепенно уменьшаются во время более конкретного обучения. Каждый раз начиная обучение с исходной модели, мы надеемся нейтрализовать этот эффект забывания. Каждая модель для конкретной книги, а также исходная смешанная модель применяются к фиксированному набору оценок, то есть ко всем страницам, не использованным для обучения. В таблице 4 приведены результаты. 6 Обсуждение Анализ столбца Avg. Вся таблица 4 показывает, что применение предварительно обученных смешанных моделей "из коробки" достигает среднего CER в 6,22%, который затем быстро при тонкой настройке после ITA. Всего двух страниц GT достаточно для достижения CER в 3,27 %, что улучшает результат "из коробки" в среднем на 48 %. Как и ожидалось, дальнейшие итерации приводят к дальнейшему улучшению, в результате чего средний CER составляет 1,65 % при использовании 32 страниц GT. Использование предварительно обученной модели в качестве
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом как отправная точка для тренировок по конкретным документам, приводит к значительному снижению количества ошибок по сравнению с тренировками "с нуля", причем коэффициент улучшения снижается по мере добавления большего количества страниц ГТ, составляя от 85% (2 страницы) до 39% (32 страницы). Наконец, CER для рукописей, написанных готическим почерком (за исключением Вернер-Вена), значительно ниже, чем для рукописей Бастарды, как при распознавании из коробки (5,56 % для готических шрифтов, 6,89 % бастардинских), так и при обучении для конкретного документа (в среднем CER для готического шрифта ниже на 35 % по сравнению с Бастардой). В целом, эти результаты весьма многообещающи. CER, достигнутый при использовании предварительно обученных смешанных моделей (в среднем 6,22 % для обоих сценариев в совокупности), уже достаточно хорош для некоторых последующих задач, таких как (устойчивый к ошибкам) полнотекстовый поиск, и, конечно, позволяет значительно ускорить создание GT по сравнению с транскрибированием с нуля. Последующее обучение по конкретным документам с использованием смешанных моделей в качестве отправной точки быстро привело к значительным улучшениям даже при использовании всего нескольких страниц ГТ. Двух страниц было достаточно, чтобы мгновенно значительно улучшить готовый результат (в среднем на 48 %), в результате чего CER составил 3,27 %. Такие небольшие объемы ГТ могут быть легко получены одним исследователем, особенно если начать с уже достаточно низкого уровня ошибок распознавания смешанной модели или модели для конкретного документа, обученной в ходе предыдущей итерации. Тщательная тренировка с использованием 32 страниц GT дала отличный средний CER в 1,65%, при этом четыре из пяти оцениваемых рукописей достигли CER значительно ниже 2%. Единственное исключение - Gast-2 (CER 2,25 %), что было вполне ожидаемо, поскольку эта рукопись представляет собой наиболее сложную работу, а каждая страница состоит из менее чем тридцати довольно коротких строк. Для сравнения, это примерно в 2,5 раза меньше, чем у другого "ублюдочного" манускрипта Gast-1. Высокое качество выходных данных HTR не только открывает широкие возможности для последующего использования созданных текстов, но и может послужить для дальнейшего очень эффективного производства GT, поскольку ITA не обязательно останавливаться на достигнутом. На самом деле, увеличение количества страниц, используемых для обучения, с 16 до 32 все равно дало весьма заметный коэффициент улучшения в 15 %, что указывает на дальнейшие возможности для улучшения. Однако общая отдача от инвестиций, то есть выигрыш в CER по отношению к необходимым человеческим усилиям, уменьшается по мере производства и обучения все большего количества ГТ, ориентированных на конкретный материал. Поскольку ITA может продолжаться бесконечно, пользователи должны сами выбрать стратегию, наиболее подходящую для их материала, случая использования и требований к качеству. Например, если целью является транскрибирование всей рукописи для подготовки критического издания, где требуется (в основном) безошибочный текст, то, естественно, имеет смысл продолжать обучение по материалу до тех пор, пока транскрипция не будет завершена. Напротив, если целью является достижение определенного целевого показателя CER, необходимого для выполнения конкретных последующих задач, МТП, конечно, следует использовать только до достижения этого показателя, чтобы затем обработать оставшиеся страницы полностью автоматически. В любом случае результаты показывают, что использование предварительно обученной модели в качестве начальной точки для ITA практически обязательно, поскольку эффект по сравнению с началом работы с нуля огромен. При использовании всего двух страниц учебного материала 11
12 C. Реул и др. При использовании предварительно обученной модели CERs улучшается в среднем на 85%. Как и ожидалось, этот эффект снижается с ростом числа обучающих страниц. Однако даже при использовании значительного количества GT, а именно 32 страниц, CER все равно улучшается на весьма заметные 39 %. Большинство тренингов можно пройти за пару часов даже при использовании стандартного настольного ПК без графического процессора, что делает этот подход вполне осуществимым для практикующего гуманиста. Это отвечает на первый и второй вопрос введения: Простое обучение доступной предварительно обученной модели на нескольких страницах ГТ, которые могут быть расшифрованы в течение нескольких часов, может дать распознанный текст с уровнем ошибок в низких однозначных числах. Если увеличить объем обучающего материала, ошибки могут быть еще больше уменьшены, хотя и с меньшим коэффициентом улучшения. Остается третий вопрос: что делать, если доступна только предварительно обученная модель вне домена: Нужно ли тренироваться с нуля только на новой транскрибированной ГТ или все же лучше начать обучение с существующей модели? Первый признак того, что это действительно так, можно увидеть, сравнив результаты по Вернеру-Вину, чья готическая рука уже присутствовала в предварительно обученной готической модели (табл. 4): Несмотря на то, что "нестандартное" распознавание является лучшим среди всех готических рукописей, это преимущество быстро исчезает с увеличением тренировки на конкретном документе. Это впечатление экспериментами с внедоменными моделями в Таблице 3, где, как и ожидалось, применение внедоменных моделей (Бастарда к готике и наоборот) приводит к значительно худшим результатам. Использование внедоменных моделей в качестве отправной точки для обучения с учетом специфики документа все равно дает гораздо более высокие результаты по сравнению с обучением с нуля, особенно когда имеется не так много специфических для документа GT: Обучение внедоменной модели Bastarda (с готовым CER 16,56%) дало значительное улучшение (2,51%/1,56%) даже по сравнению с обучением с нуля (5,27%/2,29%). Те же тенденции наблюдаются и для бастардинской рукописи Gast-1: результат готики из коробки составил 24,88 %, а результат обучения - 3,28 %/1,99 %, по сравнению с обучением с нуля - 8,33 %/2,89 %. Из этих наблюдений можно сделать вывод, что пользователям не следует уклоняться от работы с материалом, для которого не существует идеально подходящей смешанной модели, а просто использовать наиболее близкую к ней и работать дальше. Наконец, мы посмотрим на изменение распределения ошибок в ходе ITA на примере рукописи Вернера-Кракау (табл. 5). Самым большим источником ошибок в готовом варианте являются точки в конце каждого стиха, которые очень малы и часто сливаются с предыдущей буквой. Другими доминирующими ошибками являются путаница w с vv, а также удаление пробелов и диакритических знаков, таких как надстрочные e, v и знак сокращения er (представленный как крючок или зигзагообразный знак вверху; отмечен как @ в таблице путаницы). Обучение на 4 страницах документа значительно улучшает распознавание пробелов и выводит почти все путаницы w /vv и большинство диакритических ошибок за пределы десяти наиболее часто встречающихся ошибок, а около 80 % ошибок, связанных с точками, исчезли. После тренировки на 16 страницах точки и ошибки, связанные с пробелами, составляют подавляющее большинство (около 35 %) оставшихся ошибок.
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом Таблица 5. Десять наиболее часто встречающихся ошибок для 18 страниц рукописи Вернера-Кракау с указанием GT, предсказания (PRED), абсолютного числа случаев возникновения ошибки (CNT ) и ее доли от общего числа ошибок в процентах (% ), полученных в результате применения смешанной модели и обучения с учетом специфики документа на 4/16 страницах. из коробки GT PRED CNT . e w vv v @ z d u 7 l c i . Обучение на 4 страницах Обучение на 16 страницах % GT PRED CNT % GT PRED CNT % 121 13.2 62 6.7 44 9.6 35 3.8 33 3.6 28 3.0 26 2.8 24 2.6 15 1.6 14 1.5 . . i z l e t i n u u 25 10.7 14 6.0 14 6.0 12 5.2 9 3.9 7 3.0 6 2.6 5 2.1 4 1.7 4 1.7 . . i в æ n m a u v e 24 12.1 17 8.6 15 7.6 12 6.1 10 5.1 3 3.0 3 1.5 3 1.5 3 1.5 3 1.5 Заключение и дальнейшая работа Создав обучающий корпус, состоящий из 35 средневековых немецких рукописей и около 13 тысяч строк для двух широко распространенных стилей немецкого средневекового рукописного письма, готики и бастарда, мы смогли обучить несколько высокоэффективных смешанных моделей. Оценка на четырех ранее неизвестных рукописях дала очень низкие показатели ошибок, как при использовании смешанных моделей из коробки (средний CER ниже 6 %), так и при обучении по конкретному документу. В последнем случае качество результата сильно зависело от объема использованного обучающего материала: от среднего CER в 3,28 % для двух страниц GT до 1,68 % для тщательно обученных моделей (32 страницы). Значительная часть этой эффективности может быть приписана использованию смешанных моделей в качестве отправной точки для каждого отдельного обучения по конкретному материалу. Предварительное обучение оказалось весьма эффективным: средние показатели улучшения варьировались от 86 до 38 % в зависимости от количества страниц, использованных для обучения. Это справедливо не только для применения моделей внутри домена (модель Bastarda к материалу Bastarda, Gothic к Gothic), но и при использовании моделей вне домена в качестве основы для тонкой настройки. Чем больше GT будет находиться в открытом доступе для отдельных исследователей и групп, тем лучше и шире применяться предварительно обученные модели. Чтобы поддержать этот дух открытого сотрудничества, мы сделали наши собственные предварительно обученные модели открытыми. Что касается будущей работы, мы хотим использовать присущие движку ATR значения уверенности. Например, эти значения доверия можно было бы использовать для определения отдельных строк, с которыми существующая модель испытывала наибольшие трудности, и затем транскрибировать эти строки целенаправленно, чтобы максимизировать эффект обучения в рамках подхода, подобного активному обучению. Первая реализация такого подхода - выделение неопределенных символов - уже доступна в OCR4all [12]. Кроме того, агрегированный кон- 13
14 C. Реул и др. Информация о достоверности может также служить индикатором текущего качества текста и, следовательно, служить критерием остановки для ITA. Современные исследования активно продвигают безрекуррентные подходы, основанные на сетях внимания и трансформации. Канг и другие [7] впервые представили нерекуррентную архитектуру, использующую многоголовые слои самовнимания не только на визуальном, но и на текстовом уровне. В дальнейшем последовало множество усовершенствований и комбинаций с существующими подходами, например [2]. Хотя широкое применение этих разработок в практической области все еще сдерживается отсутствием стабильных и ресурсоэффективных реализаций с открытым исходным кодом, кажется очевидным, что именно в этом направлении ATR будет развиваться в будущем. Благодарности Авторы выражают благодарность нашим студентам-исследователям Лизе Гугель, Киаре Харт, Урсуле Хесс, Аннике М ӱ лер и Анне Шмид за проделанную ими большую работу по сегментации и транскрипции, а также Максимилиану Н ¨ о т у и Максимилиану Вехнеру за помощь в подготовке данных. Эта работа была частично профинансирована Немецким исследовательским фондом (DFG) в рамках проекта № 460665940. Ссылки 1. Breuel, T.M., Ul-Hasan, A., Al-Azawi, M.A., Shafait, F.: Высокопроизводительный OCR 2. 3. 4. 5. 6. 7. 8. для печатного английского языка и Fraktur с использованием LSTM-сетей. In: 12-я Международная конференция по анализу и распознаванию документов (ICDAR). pp. 683-687. IEEE (2013). https://doi.org/10.1109/ICDAR.2013.140 Диас, Д.Х., Цинь, С., Ингл, Р., Фудзии, Й., Биссако, А.: Переосмысление моделей текстовых строк. arXiv preprint (2021), https://arxiv.org/abs/2104.07787 Айхенбергер, Н., Сувелак, Х., Шроер, А.: Верные транскрипции. 027.7 Журнал библиотечной культуры (10 2021). https://doi.org/10.21428/1bfadeb6.d3bdbcd2 Хоук, Б.В., Караисл, А., Уайт, Н.: Моделирование средневековых рук: Практическое OCR для каролинского минускула. Digital Humanities Quarterly 13(1) (2019), http://www. digitalhumanities.org/dhq/vol/13/1/000412/000412.html Ходель, Т., Шох, Д., Шнайдер, К., Перселл, Дж.: Общие модели для распознавания рукописного текста: Целесообразность и современное состояние. На примере немецкого куррента. Journal of Open Humanities Data 7 (2021). https://doi.org/10.5334/johd.46 Kahle, P., Colutto, S., Hackl, G., M ü hlberger, G.: Transkribus - сервисная платформа для транскрипции, распознавания и поиска исторических документов. In: 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). vol. 4, pp. 19-24. IEEE (2017). https://doi.org/10.1109/ICDAR.2017.307 Канг, Л., Риба, П., Р си у н̃ ол, М., Форнэс, А., Вильегас, М.: Обратите внимание на то, что вы читаете: Нерекуррентное распознавание строк рукописного текста. arXiv preprint arXiv:2005.13044 (2020), https://arxiv.org/abs/2005.13044 Мемон, Дж., Сами, М., Хан, Р.А., Уддин, М.: Оптическое распознавание рукописных символов (OCR): Всеобъемлющий систематический обзор литературы (SLR). IEEE Access 8, 142642-142668 (2020). https://doi.org/10.1109/ACCESS.2020.3012542
Распознавание рукописного текста на средневековых манускриптах с открытым исходным кодом 9. Майкл, Й., Вайдеманн, М., Лабан, Р.: HTR Engine Based on NNs P3. Технический отчет 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. Horizon 2020 (2018), https://readcoop.eu/wp-content/uploads/2018/ 12/Del_D7_9.pdf. Мочоли Кальво, К. и др: Разработка и экспериментирование системы глубокого обучения для конволюционных и рекуррентных нейронных сетей. Докторская диссертация, Университет Polit`ecnica de Val`encia (2018). Pletschacher, S., Antonacopoulos, A.: Рамка формата PAGE (Page Analysis and Ground- truth Elements). In: 20th International Conference on Pattern Recognition. pp. 257-260. IEEE (2010). https://doi.org/10.1109/ICPR.2010.72 Ройль К., Крист Д., Хартельт А., Бальбах Н., Вехнер М., Шпрингманн У., Вик К., Грундиг К., Б ӱ ттнер А., Пуппе Ф.: OCR4all - инструмент с открытым исходным кодом, обеспечивающий (полу)автоматический процесс распознавания исторических оттисков. Applied Sciences 9(22) (2019), https://doi.org/10.3390/app9224853 Реул, К., Спрингманн, У., Вик, К., Пуппе, Ф.: Повышение точности OCR на ранних печатных книгах путем сочетания предварительного обучения, голосования и активного обучения. JLCL: Special Issue on Automatic Text and Layout Recognition 33(1), 3-24 (2018), https://jlcl.org/content/2-allissues/2-heft1-2018/jlcl_2018-1_1.pdf. Реул, К., Спрингманн, У., Вик, К., Пуппе, Ф.: Повышение точности OCR на ранних печатных книгах с помощью обучения и голосования по перекрестным сгибам. In: 2018 13th IAPR International Workshop on Document Analysis Systems (DAS). pp. 423428. IEEE (2018). https://doi.org/10.1109/DAS.2018.30 Реул, К., Вик, К., Ноет, М., Вехнер, М., Спрингманн, У.: Смешанная модель обучения OCR на историческом латинском шрифте для распознавания и доработки. In: 6th International Workshop on Historical Document Imaging and Processing. pp. 7-12 (2021). https://doi.org/10.1145/3476887.3476910 S´anchez, J.A., Romero, V., Toselli, A.H., Villegas, M., Vidal, E.: A set of bench- marks for handwritten text recognition on historical documents. Pattern Recogni- tion 94, 122-134 (2019). https://doi.org/10.1016/j.patcog.2019.05.025 Спрингманн, У., Л ӱ делинг, А.: OCR исторических гравюр с применением к созданию диахронических корпораций: Case study using the RIDGES herbal corpus. Digital Humanities Quarterly 11(2) (2017), http://www.digitalhumanities.org/ dhq/vol/11/2/000288/000288.html Санкт-Эзра, Д., Браун-ДеВост, Б., Яблонски, П., Лапин, Х., Кисслинг, Б., Lolli, E.: BiblIA - A General Model for Medieval Hebrew Manuscripts and an Open Annotated Dataset. In: The 6th International Work-hop on Historical Document Imaging and Processing. pp. 61-66 (2021). https://doi.org/10.1145/3476887.3476896 Вик, К., Реул, К., Пуппе, Ф.: Calamari - высокопроизводительный пакет глубокого обучения на основе Tensorflow для оптического распознавания символов. Digital Humanities Quarterly 14(2) (2020), http://www.digitalhumanities.org/dhq/vol/14/ 2/000451/000451.html 15