01
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
给定句子: John reads a book, 基于2元文法3元文法
二元文法:
(<BOS>, John)
(John, reads)
(reads, a)
(a, book)
(book, <EOS>)
对网页相关信息.csv 进行分组,然后进行统计,filter()
import pandas as pd
data = pd.read_csv('assignment_infowe.csv', encoding='gbk')
# Task 01 分组
group_data = data.groupby('分类')
for item in group_data:
print(item)
用concat(), merge(), join()结合各自具体的参数(axis, join, how)来完成数据的合并,
concat()
变化 join
参数学生信息为:
性别 年龄
张强 男 17
李娜 女 18
学生成绩为:
语文 数学
张强 90 88
李娜 85 79
王浩 92 95
语料库名称 | 研发机构 | 主要特点 / 作用 |
---|---|---|
BCC现代汉语语料库 | 北京语言大学 | 包含报刊、文学、微博、科技等多领域语料,支持分词、词性标注,适用于语言学研究和NLP任务410。 |
BiCovid | 公益组织(国际合作) | 提供新冠肺炎疫情相关双语文本检索,帮助翻译志愿者获取权威疫情术语对照4。 |
BNC(英国国家语料库) | 牛津大学、朗文等 | 收录现代英式英语文本,涵盖口语和书面语,适用于英语语言学研究4。 |
COCA(美国当代英语语料库) | Brigham Young University | 动态更新,包含小说、口语、学术文章等,适用于新词研究和英语教学4。 |
LIVAC泛华语地区共时语料库 | 香港城市大学等 | 收集京沪台港澳新等地华语媒体语料,用于对比不同地区汉语使用差异4。 |
万卷·丝路多语言语料库 | 上海人工智能创新中心 | 支持泰语、俄语、阿拉伯语等5种语言,用于智能翻译、文旅导览,强调本土化表达6。 |
具身智能语料专项工程 | 库帕思科技等 | 结合文本、图像、音频训练人形机器人,提升环境交互能力69。 |
HSK动态作文语料库 | 北京语言大学 | 收录外国学生HSK考试作文,用于汉语中介语研究和二语教学分析1011。 |
财跃星辰金融语料库 | 财跃星辰(金融科技公司) | 整合财经新闻、投研报告,用于AI金融风险评估和智能投研613。 |
汉语中介语语料库 | 北京语言大学 | 全球最大汉语学习者语料库,用于对外汉语教学研究,含笔语、口语、多模态数据1011。 |
import numpy as np
import pandas as pd
# Task 01: 创建 100x6 的 DataFrame,数值在 [-3, 3] 之间
df = pd.DataFrame(np.random.uniform(-3, 3, (100, 6)))
# Task 02: 统计汇总
print("数据统计:")
print(df.describe())
# Task 03: 取前六行
print("\n前6行数据:")
print(df.head(6))
# Task 04: 使用 count() 统计异常值
ab_low = df[df < -2].count()
ab_high = df[df > 2].count()
# 每列总异常值
ab_each_column = ab_low + ab_high
# 异常值总数
ab_total = ab_each_column.sum()
print("\n每列异常值数量:")
print(abnormal_each_column)
print(f"\n异常值总数:{abnormal_total}")
# Task 05: 替换
df_clipped = df.clip(lower=-2, upper=2)
# Task 06: 查看替换后的统计汇总
print("\n替换异常值后的数据统计:")
print(df_clipped.describe())
import pandas as pd
import numpy as np
# 创建包含缺失值的字典
data_dict = {
'姓名': ['张三', '李四', '王五', '张三', None], # None 表示缺失值
'年龄': [25, 30, None, 25, 40], # None 代表缺失值
'城市': ['北京', '上海', '广州', None, '北京'], # None 代表缺失值
'工资': [7000, 8000, 9000, 7000, None] # None 代表缺失值
}
# 将字典转换为 DataFrame
df = pd.DataFrame(data_dict)
状态图咋画?【终止状态两个圈】
最左最右推导:
正则推导:
第一部分:生成
第二部分:生成
review
nums = [100, 2, 3, 40, 99]
words = ["three", "two", "one"]
# Expressions and results
print(nums[-1])
print(words.index("two"))
print(nums[words.index("two")])
print(words[1])
print(words[1][1])
print(words[1][-2] * nums[2])
print(nums[:1] + words[:1])
print(", ".join(words))
print((", ".join(words))[4:7])
替换平均池化(AvgPool)为最大池化(MaxPool),并输出结果。
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
# --------------------- 1. 定义 LeNet 网络 ---------------------
class LeNet(nn.Module):
def __init__(self, use_maxpool=True):
super(LeNet, self).__init__()
# 卷积层
self.conv1 = nn.Conv2d(1, 6, kernel_size=5, padding=2) # 28x28 -> 28x28
self.conv2 = nn.Conv2d(6, 16, kernel_size=5) # 14x14 -> 10x10
# 选择池化方式(默认使用 MaxPool)
self.pool = nn.MaxPool2d(kernel_size=2, stride=2) if use_maxpool else nn.AvgPool2d(kernel_size=2, stride=2)
# 全连接层
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(torch.relu(self.conv1(x))) # 第一层卷积 + ReLU + 池化
x = self.pool(torch.relu(self.conv2(x))) # 第二层卷积 + ReLU + 池化
x = torch.flatten(x, 1) # 展平
x = torch.relu(self.fc1(x))
x = torch.relu(self.fc2(x))
x = self.fc3(x) # 最终输出 10 维
return x
# --------------------- 2. 载入 MNIST 数据集 ---------------------
mnist_data_path = "D:/603/pythonProject/data/MNIST/"
transform = transforms.Compose([
transforms.Grayscale(),
transforms.ToTensor(),
transforms.Normalize((0.5,), (0.5,)) # 归一化到 [-1, 1]
])
# 加载训练和测试数据
trainset = torchvision.datasets.MNIST(root=mnist_data_path, train=True, download=False, transform=transform)
testset = torchvision.datasets.MNIST(root=mnist_data_path, train=False, download=False, transform=transform)
train_loader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True)
test_loader = torch.utils.data.DataLoader(testset, batch_size=64, shuffle=False)
# --------------------- 3. 训练模型 ---------------------
def train_model(model, train_loader, epochs=5, learning_rate=0.001):
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
for epoch in range(epochs):
model.train()
running_loss = 0.0
for images, labels in train_loader:
images, labels = images.to(device), labels.to(device)
optimizer.zero_grad()
outputs = model(images)
loss = criterion(outputs, labels)
loss.backward()
optimizer.step()
running_loss += loss.item()
print(f"Epoch {epoch + 1}, Loss: {running_loss / len(train_loader):.4f}")
# --------------------- 4. 评估模型 ---------------------
def evaluate_model(model, test_loader):
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
model.eval()
correct, total = 0, 0
with torch.no_grad():
for images, labels in test_loader:
images, labels = images.to(device), labels.to(device)
outputs = model(images)
_, predicted = torch.max(outputs, 1)
total += labels.size(0)
correct += (predicted == labels).sum().item()
print(f"Test Accuracy: {100 * correct / total:.2f}%")
# --------------------- 5. 运行实验 ---------------------
# 训练并评估使用平均池化的 LeNet
print("\nTraining LeNet with Average Pooling...")
lenet_avg = LeNet(use_maxpool=False)
train_model(lenet_avg, train_loader, epochs=5, learning_rate=0.001)
print("\nEvaluating LeNet with Average Pooling...")
evaluate_model(lenet_avg, test_loader)
# 训练并评估使用最大池化的 LeNet
print("\nTraining LeNet with Max Pooling...")
lenet_max = LeNet(use_maxpool=True)
train_model(lenet_max, train_loader, epochs=5, learning_rate=0.001)
print("\nEvaluating LeNet with Max Pooling...")
evaluate_model(lenet_max, test_loader)