博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数学之美笔记(十二)
阅读量:6588 次
发布时间:2019-06-24

本文共 534 字,大约阅读时间需要 1 分钟。

  hot3.png


假设有一个大矩阵A描述成千上万篇文章和几十上百万词的关联性。在这个矩阵中,每一行表示一篇文章,每一列对应一个词,如果有N个词和M篇文章,那么就是一个M X N的矩阵。

113014_8Hc4_1398794.png

奇异值分解就是将上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。

114231_S5kg_1398794.png

115245_I3zZ_1398794.png       115442_BVj1_1398794.png     115612_uzWj_1398794.png

这三个矩阵有非常清晰的物理含义。第一个矩阵X是对文章分类的结果,第二个矩阵表示词的类和文章的类之间的相关性,第三个矩阵表示对词进行分类的一个结果。

奇异值分解的数学定义式为AMN=XMNXBMNXYNN,其中X是一个酉矩阵,Y是一个酉矩阵的共轭矩阵(酉矩阵与它的共轭矩阵转置相乘等于单位阵)。

奇异值分解的步骤:

  1. 将矩阵A变换成一个双对角矩阵,当M>N时,计算量为O(MN2

  2. 将双对角矩阵变为奇异值分解的三个矩阵

奇异值分解的优点是能较快的得到结果,因为它不需要一次次迭代;缺点是存储量较大。这种方法得到的分类结果较为粗糙,因此它适合处理超大规模文本的粗分类。

在实际工作中,可以先进行奇异值分解,得到粗分类结果,再利用计算向量余弦的方法,在粗分类的结果基础上,进行几次迭代,得到比较精确的结果。


本文涉及到的人物及其著作:

转载于:https://my.oschina.net/shou1156226/blog/384681

你可能感兴趣的文章
thinkphp-条件判断-范围判断-in
查看>>
log.py——打印出独立IP,并统计独立IP数
查看>>
WIN7新功能:跳转列表
查看>>
五分钟深入 Hadoop 内核
查看>>
我的友情链接
查看>>
【MongoDB学习笔记17】MongoDB的查询:find中的数组查询
查看>>
Python 字符串操作方法大全
查看>>
java语句while主意点
查看>>
我的友情链接
查看>>
加密、解密、openssl的基本应用以及CA的实现过程
查看>>
RAID 详解
查看>>
锁-概念:可重入锁、可中断锁、公平锁、读写锁
查看>>
参加培训的感想
查看>>
linux 查找并删除
查看>>
数据结构与算法 3:二叉树,遍历,创建,释放,拷贝,求高度,面试,线索树
查看>>
request使用
查看>>
Win10文件管理器那些你不知道的秘密
查看>>
更改MyEclipse的默认编码
查看>>
Nordic Collegiate Programming Contest 2016
查看>>
cisco 交换机设置时区、时间、同步日志本地时间等操作
查看>>