DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本
10月20日,DeepSeek-AI团队发布并开源了名为DeepSeek-OCR的新模型。该模型提出了一种利用视觉模态压缩长文本上下文的新方法,其参数量为3B。
该模型利用视觉模态压缩长文本,仅需少量视觉token即可实现高效处理。在压缩比低于10倍时OCR精度达97%,单张A100显卡每日可处理超20万页文档,为长文本处理提供了低成本高性能的解决方案。
不久前的9月29日,DeepSeek正式发布DeepSeek-V3.2-Exp模型,这是一个实验性(Experimental)的版本。据了解,DeepSeek Sparse Attention(DSA)首次实现细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现长文本训练和推理效率的大幅提升。
近日,美国《时代周刊》杂志公布了2025年最佳发明榜单,选出了300项年度最具影响力的创新发明36个品类,DeepSeek、宇树科技、追觅科技、雷鸟创新等20余个中国企业的产品成功入选。
今年年初,DeepSeek R1高级推理模型的横空出世,堪称AI领域的“震惊世界第一枪”。当科技巨头们近年向生成式AI项目投入数百亿美元时,这家来自杭州的初创企业“深度求索”仅用数月就打造出在行业基准测试中媲美OpenAI、当时最先进产品的模型,且宣称训练成本仅600万美元(约合人民币4268.8万元)。该模型的算力消耗仅为美国竞争对手的零头,至今仍向用户免费开放。
(羊城晚报·羊城派综合自@密度财经、澎湃新闻)
免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。