DeepSeek представил ИИ для распознавания документов - IT Speaker, новости информационных технологий

DeepSeek представил ИИ для распознавания документов

Разработчики DeepSeek выпустили новую открытую модель для распознавания документов – DeepSeek-OCR. Она отличается от аналогов тем, что ИИ не просто извлекает текст со страниц, а сразу восстанавливает структуру документа: заголовки, списки, таблицы, подписи к рисункам.

Отметим, что результат можно получить в формате Markdown, который подходит для индексации и последующей работы нейросетей. DeepSeek-OCR распространяется под лицензией MIT и опубликована на платформе Hugging Face.

Также данная модель примечательна «оптическим сжатием контекста». Иными словами, ИИ не пересказывает каждую мелочь со страницы, а выжимает из нее только нужное: текст и смысловую структуру. Это сокращает объем данных в среднем в десять-двадцать раз и напрямую снижает стоимость обработки: чем меньше токенов, тем дешевле и быстрее работает любая последующая языковая модель.

Более того, DeepSeek-OCR использует так называемые визуальные токены – условные «взгляды» на части изображения. Даже при небольшом бюджете (64-100 токенов) точность распознавания держится на уровне 97-99%. Если страница слишком сложная, активируется режим Gundam: документ автоматически делится на отдельные фрагменты, и трудные области анализируются один за другим, без ограничений общей скорости.

Разработчики из команды Deepseek создали новую методику для самообучения моделей ИИ. Она позволяет ИИ самостоятельно осваивать новые навыки и знания без подсказок со стороны человека.

Вас может заинтересовать:

Обучение модели R1 от Deepseek стоило $294 тысяч

Поделиться новостью

ПОСЛЕДНИЕ НОВОСТИ

Гаджеты

Caviar выпустила эксклюзивные iPhone за 2,6 млн рублей

Редакция

21:00 / 20 октября 2025

ИИ
В России

Россияне заметили использование ИИ коллегами в переписке

Редакция

20:30 / 20 октября 2025

Гаджеты

Создано кольцо для управления ПК или смартфоном

Редакция

20:00 / 20 октября 2025

ИИ
Техника

В КНР прошли гонки на беспилотных машинах

Редакция

19:30 / 20 октября 2025

Мы используем файлы cookie, чтобы учесть ваши предпочтения и улучшить качество работы, в том числе удобство использования веб-сайта и оказываемых нами услуг. Оставаясь на нашем сайте, вы соглашаетесь с Политикой обработки персональных данных. Если вы хотите запретить обработку файлов cookie, отключите cookie в настройках вашего браузера