Провел еще несколько сессий по извлечению информации из текстов в pdf-формате в приложениях:
Обобщил результаты и опубликовал на Хабре: https://habr.com/ru/articles/727184/
Первая половина статьи повторяет, то, что было опубликовано здесь в предыдущих 3-х частях, а вторая половина оригинальна и м.б. Вам интересна. В частности, новые данные по испытаниям приложений на извлечение информации. См. таблицу на хабре и привожу выводы:
- Наиболее точные ответы даются на «биографические вопросы» - информация краткая и, как правило, однозначная. Здесь верные (в целом) вопросы по всем приложениям от 83% (кем работает) до 95% (где проживает). Лидерами являются PDF2gpt и PDF ChatBot, которые нередко выдают 100% верных ответов. Наиболее слабый результат показал ChatPDF
- Сложные вопросы №6 и 7 в сумме по всем приложениям дают 60% верных ответов, но при этом дифференциация существенно выше. Лучший результат однозначно показывает PDF2gpt – фактически только он дает 100% в целом верных ответов как по 6-му так и по 7-му вопросу. Это очень хороший результат, учитывая, что аутсайдер ChatPDF показывает по 6-му вопросу 40%, а по 7-му всего 20% в целом верных ответов.
Комментариев нет:
Отправить комментарий