×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

Инструменты решения проблем распознавания и кластеризации данных из документов методами машинного обучения

Аннотация

Золотарев О.В., Юрчак В.А.

Дата поступления статьи: 09.01.2023

В статье описываются возможности, достоинства и отличия систем машинного обучения без учителя от обучения по шаблонам. Также дается определение понятию кластеризации с указанием основных методов и задач, решаемых данным алгоритмом машинного обучения. Подробно расписывается алгоритм распознавания данных из документов посредством технологии OCR, формируются цели и задачи использования технологии OCR в бизнес – процессах IT – компаний. Далее приводятся инструменты решения проблемы распознавания и кластеризации данных из сканов документов PDF посредством библиотек машинного обучения Nanonets и Tesseract. В заключении к данной статье описываются достоинства и недостатки использования данных библиотек в решении проблемы распознавания и кластеризации данных из сканов документов.

Ключевые слова: машинное обучение, кластеризация, распознавание данных, библиотека Nanonets, библиотека Tesseract

1.2.2 - Математическое моделирование, численные методы и комплексы программ

2.3.1 - Системный анализ, управление и обработка информации

.