01
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
语料库名称 | 研发机构 | 主要特点 / 作用 |
---|---|---|
BCC现代汉语语料库 | 北京语言大学 | 包含报刊、文学、微博、科技等多领域语料,支持分词、词性标注,适用于语言学研究和NLP任务410。 |
BiCovid | 公益组织(国际合作) | 提供新冠肺炎疫情相关双语文本检索,帮助翻译志愿者获取权威疫情术语对照4。 |
BNC(英国国家语料库) | 牛津大学、朗文等 | 收录现代英式英语文本,涵盖口语和书面语,适用于英语语言学研究4。 |
COCA(美国当代英语语料库) | Brigham Young University | 动态更新,包含小说、口语、学术文章等,适用于新词研究和英语教学4。 |
LIVAC泛华语地区共时语料库 | 香港城市大学等 | 收集京沪台港澳新等地华语媒体语料,用于对比不同地区汉语使用差异4。 |
万卷·丝路多语言语料库 | 上海人工智能创新中心 | 支持泰语、俄语、阿拉伯语等5种语言,用于智能翻译、文旅导览,强调本土化表达6。 |
具身智能语料专项工程 | 库帕思科技等 | 结合文本、图像、音频训练人形机器人,提升环境交互能力69。 |
HSK动态作文语料库 | 北京语言大学 | 收录外国学生HSK考试作文,用于汉语中介语研究和二语教学分析1011。 |
财跃星辰金融语料库 | 财跃星辰(金融科技公司) | 整合财经新闻、投研报告,用于AI金融风险评估和智能投研613。 |
汉语中介语语料库 | 北京语言大学 | 全球最大汉语学习者语料库,用于对外汉语教学研究,含笔语、口语、多模态数据1011。 |
状态图咋画?【终止状态两个圈】
最左最右推导:
正则推导:
第一部分:生成
第二部分:生成
树的概念(省略)
字符串(string):
闭包:
import os
import zipfile
import requests
# ICWB2 数据集下载地址
url = "http://sighan.cs.uchicago.edu/bakeoff2005/data/icwb2-data.zip"
save_path = "icwb2-data.zip"
extract_folder = "icwb2-data"
# 下载数据集
if not os.path.exists(save_path):
print("正在下载 ICWB2 数据集...")
response = requests.get(url, stream=True)
with open(save_path, "wb") as f:
for chunk in response.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
print("下载完成!")
# 解压数据集
if not os.path.exists(extract_folder):
print("正在解压数据集...")
with zipfile.ZipFile(save_path, "r") as zip_ref:
zip_ref.extractall(extract_folder)
print("解压完成!")
print("ICWB2 数据集准备完成!")
In the broadest sense,NLP refers to any program that automatically processes human languages.
从广义上讲,NLP 是指任何能够自动处理人类语言的程序。
至少一个填空或者选择题