MMoon

Name: Xiao XianYue
Class: Natural Language Processing 01 / Academic 2

1. Experiment Design

Chinese word segmentation is a fundamental task in natural language processing (NLP) and plays a crucial role in understanding and processing Chinese text. Unlike English, where words are separated by spaces, Chinese sentences require algorithms to determine word boundaries. Accurate segmentation improves the performance of downstream tasks such as machine translation, information retrieval, and text classification, making it a key research focus in both academia and industry. This experiment employs the BERT (Bidirectional Encoder Representations from Transformers) model to address Chinese word segmentation, leveraging its powerful contextual modeling capabilities to enhance segmentation accuracy.

思维链分析

1. 思维链 Prompt

你是一位专业的时间管理教练，请根据以下信息为我制定今日计划：

课程表：[用户输入今日课程时间] ——> 连入教务系统获得，教务系统API更新频率：每30分钟同步（标注调课/临时会议等突发变更）
待办事项：[用户输入任务列表，如"大数据作业""预习英语""洗衣服"] ——> 可以手动预设，也可以根据以往信息推荐，比如：完成昨天未完成的英语单词的积累。用户也可以定制自己的学习进度数据库，筛选每门课程的教学大纲和教学进度输入，提供分析数据。手动输入覆盖规则：用户手动输入的数据优先级高于自动同步数据
健康数据：[可选输入如"早餐吃了燕麦+香蕉""昨晚睡了6小时"] ——> 连入手机健康类app，健康APP数据权限：需授权读取睡眠周期（深/浅睡眠比例）、步数、心率变异率(HRV)
历史数据：[如晚上失眠早上调整起床时间] —— 定制历史数据库，如心情，学习进度，身体状况

语言模型练习题

01

给定句子： John reads a book, 基于2元文法3元文法

二元文法：

(<BOS>, John)  
(John, reads)  
(reads, a)  
(a, book)  
(book, <EOS>)

大数据小作业 12

Task 01

对网页相关信息.csv 进行分组,然后进行统计,filter()

分类

import pandas as pd
data = pd.read_csv('assignment_infowe.csv', encoding='gbk')

# Task 01 分组
group_data = data.groupby('分类')
for item in group_data:
    print(item)

大数据小作业 11

Task 01

用concat(), merge(), join()结合各自具体的参数（axis, join, how)来完成数据的合并，

`concat()` 变化 `join`参数

数据

学生信息为：
    性别  年龄
张强  男  17
李娜  女  18
学生成绩为：
     语文  数学
张强  90  88
李娜  85  79
王浩  92  95

语言模型

1. 基本概念

1.1 文法

n元文法（n-gram）模型

例子：

1.3 使用二元文法例子

image-20250331094603921

二元文法样本空间是
效果比一元文法强

2. 参数估计、

重要！！！！！

示例讲解

image-20250331095009414

语料库和语言学

语料库名称	研发机构	主要特点 / 作用
BCC现代汉语语料库	北京语言大学	包含报刊、文学、微博、科技等多领域语料，支持分词、词性标注，适用于语言学研究和NLP任务410。
BiCovid	公益组织（国际合作）	提供新冠肺炎疫情相关双语文本检索，帮助翻译志愿者获取权威疫情术语对照4。
BNC（英国国家语料库）	牛津大学、朗文等	收录现代英式英语文本，涵盖口语和书面语，适用于英语语言学研究4。
COCA（美国当代英语语料库）	Brigham Young University	动态更新，包含小说、口语、学术文章等，适用于新词研究和英语教学4。
LIVAC泛华语地区共时语料库	香港城市大学等	收集京沪台港澳新等地华语媒体语料，用于对比不同地区汉语使用差异4。
万卷·丝路多语言语料库	上海人工智能创新中心	支持泰语、俄语、阿拉伯语等5种语言，用于智能翻译、文旅导览，强调本土化表达6。
具身智能语料专项工程	库帕思科技等	结合文本、图像、音频训练人形机器人，提升环境交互能力69。
HSK动态作文语料库	北京语言大学	收录外国学生HSK考试作文，用于汉语中介语研究和二语教学分析1011。
财跃星辰金融语料库	财跃星辰（金融科技公司）	整合财经新闻、投研报告，用于AI金融风险评估和智能投研613。
汉语中介语语料库	北京语言大学	全球最大汉语学习者语料库，用于对外汉语教学研究，含笔语、口语、多模态数据1011。

逻辑链总结

大数据小作业 10

代码

import numpy as np
import pandas as pd

# Task 01: 创建 100x6 的 DataFrame，数值在 [-3, 3] 之间
df = pd.DataFrame(np.random.uniform(-3, 3, (100, 6)))

# Task 02: 统计汇总
print("数据统计：")
print(df.describe())

# Task 03: 取前六行
print("\n前6行数据：")
print(df.head(6))

# Task 04: 使用 count() 统计异常值
ab_low = df[df < -2].count()
ab_high = df[df > 2].count()

# 每列总异常值
ab_each_column = ab_low + ab_high
# 异常值总数
ab_total = ab_each_column.sum()

print("\n每列异常值数量：")
print(abnormal_each_column)
print(f"\n异常值总数：{abnormal_total}")

# Task 05: 替换
df_clipped = df.clip(lower=-2, upper=2)

# Task 06: 查看替换后的统计汇总
print("\n替换异常值后的数据统计：")
print(df_clipped.describe())

大数据小作业 09

创建DataFrame数据

import pandas as pd
import numpy as np

# 创建包含缺失值的字典
data_dict = {
    '姓名': ['张三', '李四', '王五', '张三', None],  # None 表示缺失值
    '年龄': [25, 30, None, 25, 40],  # None 代表缺失值
    '城市': ['北京', '上海', '广州', None, '北京'],  # None 代表缺失值
    '工资': [7000, 8000, 9000, 7000, None]  # None 代表缺失值
}

# 将字典转换为 DataFrame
df = pd.DataFrame(data_dict)

MMoon

1. Experiment Design

1. 思维链 Prompt

01

Task 01

分类

Task 01

concat() 变化 join参数

数据

1. 基本概念

1.1 文法

1.3 使用二元文法例子

2. 参数估计、

示例讲解

代码

创建DataFrame数据

`concat()` 变化 `join`参数