车间材料Colm

早期英语图书在线文本创作伙伴关系(EEBO-TCP)

TCPblackmed

任务

早期英语书籍在线文本创作伙伴关系(EEBO-TCP)成立于1999年,旨在为早期印刷书籍创建标准化的、准确的XML/SGML编码的电子文本版本。EEBO-TCP文本是基于ProQuest的基础图像集手工转录和标记的早期英语在线书籍(EEBO)。反过来,EEBO- tcp的工作已经成为EEBO内全文搜索的基础。

范围

EEBO语料库收录了1475年至1700年间出版的英文著作,涵盖文学、哲学、政治、宗教、地理、科学和人类努力的所有其他领域。以下只是其中一小部分作者的作品:伊拉斯谟、莎士比亚、国王詹姆斯一世、马洛、伽利略、卡克斯顿、乔叟、马洛里、波义耳、牛顿、洛克、莫尔、弥尔顿、斯宾塞、培根、多恩、霍布斯、珀塞尔、本恩和笛福。

EEBO-TCP的第一阶段生产从2001年持续到2009年,创建了25363个可搜索文本。到目前为止,在第二阶段,该项目已经增加了22971个文本,总计48339个文本。该项目的最终目标是完成一个约7万份可搜索电子文本的语料库,即1473年至1700年间每一份独特的英文标题的副本。

正如Michael Ullyot所说,在他的2013年评审文艺复兴季刊的数字人文项目:“TCP的数据规模,无论是现在还是将来,都是惊人的。目前,只有不到60%的文本被发布,TCP已经包含了9亿多字。”

结构

TCP的工作以及产生的文本文件由双方共同出资并拥有超过150个图书馆在全球范围内。生产文字创作伙伴关系是基于开云体育主頁(欢迎您)密歇根大学图书馆.的开云体育主頁(欢迎您)牛津大学是英国的主要合作伙伴。

访问

这些文本可以通过图书馆提供的网页界面进行搜索开云体育主頁(欢迎您)密歇根大学而且开云体育主頁(欢迎您)牛津大学,视频教程可用于帮助新用户入门。

此外,欢迎合作伙伴库及其用户在本地存储、托管、操作、分析和使用编码文本文件,就像它们是在本地创建的一样。

最终,TCP的所有工作都将被置于公共领域,供任何人使用。

EEBO-TCP第一阶段的25363份文本将于2015年1月1日向公众免费提供。

相关的项目

大规模使用语料库的项目包括:

使用少量EEBO-TCP文本的小规模学术项目,甚至只有一个,包括

研究与奖学金

由牛津大学主办的两次会议开云体育主頁(欢迎您)2012而且2013探讨了EEBO-TCP和相关数字人文项目的当前问题和应用。2012年的会议记录可以在牛津研究档案(在“会议/研讨会论文”标签中)。