magic_sex5 智源商讨院发汉文互联网语料库3.0, 含1000GB高质地数据
发布日期:2024-09-21 16:46 点击次数:179
新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮水:新兴业态与技巧交融”平行论坛上magic_sex5,智源商讨院天鹰言语模子追究东说念主刘广发布了汉文互联网语料库3.0。
快播在线汉文互联网语料库3.0具有界限空前,起原平日;概述标注,赋能行使;效率冲破,更懂汉文等性情。现在汉文互联网语料库3.0(CCI3.0)数据量高达1000GB,包含2.68亿网页;汉文互联网语料库3.0高质地子集(CCI3.0HQ)数据量达498GB。每条语料从10多个维度进行分析记号,附有安全分数、质地分数、信息密度等参数,便捷用户选拔高价值数据,知足企业可行化需求,更好阐扬数据遵守。
据刘广先容,数据是大模子发展的基石与瓶颈,现在模子捕快对数据界限需求大幅加多,互联网站源占比导致汉文数据报复。而有标注的高质地数据身手开释东说念主工智能的价值magic_sex5,要是业界将更多元气心灵放在数据质地上,东说念主工智能的发展才会更快。这是汉文互联网语料库3.0的推出布景。