大数据 分类

数据分析要干嘛？

Descriptive data analysis provides a brief summary of what has happened,
描述性数据分析提供了对已发生事件的简要概述，

reflecting the fluctuation and trend of data through descriptive statistical indicators,
通过描述性统计指标反映数据的波动和趋势，

and observing whether there are any abnormal situations in the data through descriptive data analysis.
并通过描述性分析观察数据中是否存在异常情况。

知识点回顾

预测考题

论述题

Question 1

大数据的基本特征？特征含义？大数据是什么？

Volume : Refers to massive amount of data collected and generated ay unprecedented scales.

Velocity: Fast data generation and processing speed. ‘One second rules’ means providing data analysis result within 1 second level time range, otherwise the data will lose it value.

第三章数据清洗

数据处理：
- checking data consistency / handling invalid or values missing\
- steps: load / clean / transform / reshape
- 无确切定义，根据场景定义
- macro level : source domain / micro level : generation domain
- 宏观要求数据准确性有效性，用于经济，搜索引擎，政府部门。数据库管理的角度。
- 微观偏应用性，实例层面，对于数据清洗要求没有宏观高。要求没有不完整/错误/重复数据。

大数据小作业 12

Task 01

对网页相关信息.csv 进行分组,然后进行统计,filter()

分类

import pandas as pd
data = pd.read_csv('assignment_infowe.csv', encoding='gbk')

# Task 01 分组
group_data = data.groupby('分类')
for item in group_data:
    print(item)

大数据小作业 11

Task 01

用concat(), merge(), join()结合各自具体的参数（axis, join, how)来完成数据的合并，

`concat()` 变化 `join`参数

数据

学生信息为：
    性别  年龄
张强  男  17
李娜  女  18
学生成绩为：
     语文  数学
张强  90  88
李娜  85  79
王浩  92  95

大数据小作业 10

代码

import numpy as np
import pandas as pd

# Task 01: 创建 100x6 的 DataFrame，数值在 [-3, 3] 之间
df = pd.DataFrame(np.random.uniform(-3, 3, (100, 6)))

# Task 02: 统计汇总
print("数据统计：")
print(df.describe())

# Task 03: 取前六行
print("\n前6行数据：")
print(df.head(6))

# Task 04: 使用 count() 统计异常值
ab_low = df[df < -2].count()
ab_high = df[df > 2].count()

# 每列总异常值
ab_each_column = ab_low + ab_high
# 异常值总数
ab_total = ab_each_column.sum()

print("\n每列异常值数量：")
print(abnormal_each_column)
print(f"\n异常值总数：{abnormal_total}")

# Task 05: 替换
df_clipped = df.clip(lower=-2, upper=2)

# Task 06: 查看替换后的统计汇总
print("\n替换异常值后的数据统计：")
print(df_clipped.describe())

大数据小作业 09

创建DataFrame数据

import pandas as pd
import numpy as np

# 创建包含缺失值的字典
data_dict = {
    '姓名': ['张三', '李四', '王五', '张三', None],  # None 表示缺失值
    '年龄': [25, 30, None, 25, 40],  # None 代表缺失值
    '城市': ['北京', '上海', '广州', None, '北京'],  # None 代表缺失值
    '工资': [7000, 8000, 9000, 7000, None]  # None 代表缺失值
}

# 将字典转换为 DataFrame
df = pd.DataFrame(data_dict)

大数据小作业 08

Task 01

review

Q1

nums = [100, 2, 3, 40, 99]
words = ["three", "two", "one"]

# Expressions and results
print(nums[-1])
print(words.index("two"))
print(nums[words.index("two")])
print(words[1])
print(words[1][1])
print(words[1][-2] * nums[2])
print(nums[:1] + words[:1])
print(", ".join(words))
print((", ".join(words))[4:7])

大数据小作业 07

Task 01

在大模型的指导下学习查询IP的各种方法

本地 ip

方法一

使用命令提示符

ipconfig

大数据笔记

etree

etree.HTML()

解析 HTML

etree.HTML(text) 用于解析 HTML 字符串、文件对象或 URL 中的 HTML 内容。
解析后的 HTML 结构会被转换为 ElementTree（元素树），供进一步操作。

转换 HTML 为 ElementTree

解析后，整个 HTML 文档会转换成树形结构。
在树形结构中，每个 HTML 元素都是节点，可以 遍历、查找、修改。

预测考题

论述题

Question 1

Task 01

分类

Task 01

concat() 变化 join参数

数据

代码

创建DataFrame数据

Task 01

Q1

Task 01

本地 ip

方法一

etree

etree.HTML()

`concat()` 变化 `join`参数