荀子古书大语言模型微信***南农新冠窗口CIM示意图。
澎湃新闻(www.)。12月11日,从南京农业大学获悉,该校信息管理学院王东波团队近日研发出国内首款专门用于古籍加工研究的智能工具——《荀子》古书大语文模型,其中包括20多亿字大语料库的《四库全书》古书, 具有自然语言理解、自动翻译、自动索引等功能。该模型已在 GitHub、Modelscope 等上开源。
王东波说,荀子不仅是先秦时期伟大的天真唯物主义思想家和散文家,而且是语言学理论阐述的先驱,为了纪念这位语言学先驱而得名,“普通读者要想以繁体的、垂直的版本、不读句子的方式接近古籍,并不容易, 而《荀子》的推出,意味着在智慧媒体时代与古籍对话成为可能,将古籍的阅读理解、标点符号添加、翻译成现代汉语——这些难的'硬骨头','荀子'都能轻松取胜。 专家可以使用“荀子”完成古籍词汇分析、实体识别、关系抽取、文本分类匹配、文本摘要等。
据介绍,“荀子”的出现离不开高性能的算力基础设施,也离不开团队长期积累的精细化语料,已经养成了40亿字的混合语料数据。 “模型的构建受算力和场景应用的影响,但高质量、高精度的数据是关键。 王东波说,团队从2024年开始接触古籍,从2024年开始专注于手工精细标注数据,“比如在《岳阳楼的故事》中,训练机器给形容词标注,先训练相关人员给形容词标注,让机器在大量手工标注的基础上学习习。
王东波表示,他希望通过“荀子”大语言模型,将古籍的智慧研究与交叉学科人才的培养相结合,让学生既能有前瞻性的科研视野,又能积累更深的人文底蕴,同时让更多的观众接触、阅读和传播古籍, 并盘活“旧纸堆”。
澎湃新闻,更多原创信息请**“澎湃新闻”app)。
相似文章
央视纪录片组 匠心 栏目是一档备受瞩目的大型电视纪录片节目。匠心 栏目组介绍。栏目通过外景拍摄,生动刻画了大国工匠和匠心的画面,讲述了创新 传统技艺和工匠精神的匠心故事。.聪明才智 展出的是一系列令人难以置信的工艺品和工艺。在这个日益工业化的时代,手工制作艺术变得越来越珍贵和独特。本专栏所关注的伟大...
年月日 日,湖南文理学院鸟类保护营和中国绿色发展协会 人民战争塑料 行动团队,在常德和晓清行动中心 湖南应用技术大学机电工程学院 中国绿色发展协会大学生发展工作委员会 以下简称 绿色 团队下,余名志愿者参加了湖南文理学院鸟类保护营和中国绿色发展协会 人民战争塑料 行动。大学 在沅江 阳明湖开展了滩涂...
编辑 紫。空间转录组学 ST 技术检测单个细胞中的 mRNA 表达,同时保留其二维 D 空间坐标,使研究人员能够研究转录组在组织中的空间分布 然而,对多个 ST 切片进行联合分析并将它们对齐以构建三维 D 组织堆栈仍然是一个挑战。近日,来自中国科学技术大学 合肥国家科学中心和北京生命科学研究所 NI...
月日,国际知名期刊 自然生物医学工程 刊登了浙江大学药学院 金华研究院顾震教授 王金强教授团队长效胰岛素制剂的研究成果。浙江大学研究团队.图片由浙江大学提供。在目前的 模式下,糖尿病患者通常需要按照日常饮食规律,每天皮下注射胰岛素数次,以维持空腹和餐后血糖稳定。是否有可能开发出一种精确控制胰岛素释放...
对于数以亿计的糖尿病患者来说,胰岛素注射已经成为他们日常生活中不可或缺的一部分。胰岛素可导致葡萄糖被细胞吸收和代谢,从而降低血液中葡萄糖的浓度。然而,在现有的 模式下,糖尿病患者通常需要按照日常饮食规律每天皮下注射数次胰岛素,以维持空腹血糖和餐后血糖稳定,这无疑给糖尿病患者的日常生活带来了巨大的负担...