2024Fall 统计模型 期末回忆

·312·1 分钟
AI摘要: 本文回顾了2024Fall统计模型课程期末考试的内容,包括简答题和计算题两部分。简答题涉及了C4.5与ID3的比较、EM算法介绍、词项-文档矩阵实现步骤、NLP常见任务及特征应用、聚类概念及方法、数据集划分的作用与区别以及概率分布函数。计算题部分则要求学生掌握正态分布的似然函数推导、Kmeans算法的应用、朴素贝叶斯分类器模板题目解答以及n-gram模型在句子概率计算中的应用等知识点。

htk好人呢,出题挺简单的,甚至kmeans都不忍让大家算两轮

简答题

  • C4.5相比ID3的改进
  • 简单介绍下EM算法
  • 介绍下词项-文档矩阵,实现这个矩阵的步骤
  • 介绍下NLP常见任务和特征应用
  • 什么是聚类,给出2种常见的聚类方法
  • 训练集、验证集和测试集的作用和区别
  • 写出泊松分布的概率密度函数,参数的意义
  • 写出正态分布的概率密度函数

计算题

  • 写出正态分布的似然函数,用极大似然估计推出μ^,σ2^\hat{\mu}, \hat{\sigma^2}
  • 给6个数据点,用Kmeans计算一轮,算出两个簇的中心点
  • 朴素贝叶斯的模板题
  • 用n-gram算一个句子的概率(n = 2)
  • 给两个句子,用词袋给出词向量
Kaggle学习赛初探