01
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
你怎么知道我有一只猪咪
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
对网页相关信息.csv 进行分组,然后进行统计,filter()
import pandas as pd
data = pd.read_csv('assignment_infowe.csv', encoding='gbk')
# Task 01 分组
group_data = data.groupby('分类')
for item in group_data:
print(item)
用concat(), merge(), join()结合各自具体的参数(axis, join, how)来完成数据的合并,
concat()
变化 join
参数学生信息为:
性别 年龄
张强 男 17
李娜 女 18
学生成绩为:
语文 数学
张强 90 88
李娜 85 79
王浩 92 95
语料库名称 | 研发机构 | 主要特点 / 作用 |
---|---|---|
BCC现代汉语语料库 | 北京语言大学 | 包含报刊、文学、微博、科技等多领域语料,支持分词、词性标注,适用于语言学研究和NLP任务410。 |
BiCovid | 公益组织(国际合作) | 提供新冠肺炎疫情相关双语文本检索,帮助翻译志愿者获取权威疫情术语对照4。 |
BNC(英国国家语料库) | 牛津大学、朗文等 | 收录现代英式英语文本,涵盖口语和书面语,适用于英语语言学研究4。 |
COCA(美国当代英语语料库) | Brigham Young University | 动态更新,包含小说、口语、学术文章等,适用于新词研究和英语教学4。 |
LIVAC泛华语地区共时语料库 | 香港城市大学等 | 收集京沪台港澳新等地华语媒体语料,用于对比不同地区汉语使用差异4。 |
万卷·丝路多语言语料库 | 上海人工智能创新中心 | 支持泰语、俄语、阿拉伯语等5种语言,用于智能翻译、文旅导览,强调本土化表达6。 |
具身智能语料专项工程 | 库帕思科技等 | 结合文本、图像、音频训练人形机器人,提升环境交互能力69。 |
HSK动态作文语料库 | 北京语言大学 | 收录外国学生HSK考试作文,用于汉语中介语研究和二语教学分析1011。 |
财跃星辰金融语料库 | 财跃星辰(金融科技公司) | 整合财经新闻、投研报告,用于AI金融风险评估和智能投研613。 |
汉语中介语语料库 | 北京语言大学 | 全球最大汉语学习者语料库,用于对外汉语教学研究,含笔语、口语、多模态数据1011。 |
import numpy as np
import pandas as pd
# Task 01: 创建 100x6 的 DataFrame,数值在 [-3, 3] 之间
df = pd.DataFrame(np.random.uniform(-3, 3, (100, 6)))
# Task 02: 统计汇总
print("数据统计:")
print(df.describe())
# Task 03: 取前六行
print("\n前6行数据:")
print(df.head(6))
# Task 04: 使用 count() 统计异常值
ab_low = df[df < -2].count()
ab_high = df[df > 2].count()
# 每列总异常值
ab_each_column = ab_low + ab_high
# 异常值总数
ab_total = ab_each_column.sum()
print("\n每列异常值数量:")
print(abnormal_each_column)
print(f"\n异常值总数:{abnormal_total}")
# Task 05: 替换
df_clipped = df.clip(lower=-2, upper=2)
# Task 06: 查看替换后的统计汇总
print("\n替换异常值后的数据统计:")
print(df_clipped.describe())
import pandas as pd
import numpy as np
# 创建包含缺失值的字典
data_dict = {
'姓名': ['张三', '李四', '王五', '张三', None], # None 表示缺失值
'年龄': [25, 30, None, 25, 40], # None 代表缺失值
'城市': ['北京', '上海', '广州', None, '北京'], # None 代表缺失值
'工资': [7000, 8000, 9000, 7000, None] # None 代表缺失值
}
# 将字典转换为 DataFrame
df = pd.DataFrame(data_dict)
状态图咋画?【终止状态两个圈】
最左最右推导:
正则推导:
第一部分:生成
第二部分:生成
review
nums = [100, 2, 3, 40, 99]
words = ["three", "two", "one"]
# Expressions and results
print(nums[-1])
print(words.index("two"))
print(nums[words.index("two")])
print(words[1])
print(words[1][1])
print(words[1][-2] * nums[2])
print(nums[:1] + words[:1])
print(", ".join(words))
print((", ".join(words))[4:7])