您现在的位置:首页 >> 仿盛大传世私服 >> 内容

永恒传世基于计算机的词频统计研究 ———考证《红楼梦》作者是否唯一

时间:2018-1-8 13:27:20 点击:

  核心提示:基于计算机的词频统计研究 ———考证《红楼梦》作者能否独一 李国强and 李瑞芳 (沈阳化工学院and 辽宁沈阳) 摘要:从阅读、练习、研究的角度动身and《红楼梦》这部小说能否是一小我所写的题目and 要比研究是谁写的题目and 更主要一些. 将天然迷信与社会迷信相集合and采用客观、准确...

基于计算机的词频统计研究

———考证《红楼梦》作者能否独一

李国强and 李瑞芳

(沈阳化工学院and 辽宁沈阳)

摘要:从阅读、练习、研究的角度动身and《红楼梦》这部小说能否是一小我所写的题目and 要比研究是谁写的题目and 更主要一些. 将天然迷信与社会迷信相集合and采用客观、准确的统计认识法and 运用计算发言学技术认识文学作品的作者身份题目. 统计认识终局讲明:整部《红楼梦》是同一作者所写.关键词:统计; 数学模型; 相相干数; 词频中图分类号:TP3205文献标识码:A

收稿日期:2005-12-20

作者简介:李国强(1977-) and男and 辽宁铁岭人and 讲师and 硕士研究生在读and 主要处置计算机应用技术的研究.

自清朝传世二百多年以来and 的读者.──红学. and 如何运用计and 曾经惹起了社会迷信和计算机迷信界的普遍关心. 在这种情景下and 综论计算机与红学研究的历史和现状and先容其研究形式和生活的题目and 不但不妨加深人们对《红楼梦》这部光线巨著的认识和理解and而且对付古典文学研究的当代化探求也是有鉴戒意义的.

文学作品作者的发言特征是永远的and假使作者想管制和酿成自身的写作and 他不妨用意地转折某个词汇. 于是乎and 从某种意义来说and 其不妨凌驾于发言之上. 但是and异样生活这样的可能and 他无法采用不是他自身气势气魄的词汇或语法[1]. 即作者不能逾越他所具有的词汇周围and 以及他所熟谙的语法范式.例如:名词可选形式的调整、副词的调换、动词组的组成、机能单词的应用and 都是写作气势气魄的参数. 这些非环境元素的选取是有必然规则的and在语法和高下文中是有听说最新变态网页传奇独立性、自在的and 不受任何语境限制

[2]

. 句子中副词的使用基础是属

于作者的写作气势气魄[3].字、词在作品中泛起的频次也是小我气势气魄的显示. 操纵计算机对作品或作

词、句的频次实行统计研究and从而了

and 这被称之为计算气势气魄学[4].假使近乎相同长度的同一种课题是同一个作者and 在这类研究中这种副词的绝对频次散布可能是相互相似的. 然则and 绝对频次散布生活区别时and并不能决定某身分的不同. 这是由于由于语法、高下文的应用自在and 这些副词曾经酿成讲述者大概是讲话人的表达方式、习俗and更加是在小说作品中显示得更昭彰and 也就是写作气势气魄的不同. 这些参数是由写作习俗决定的气势气魄元素的一部门and这个形式也是作者写作气势气魄的一个特征. 本文依此对《红楼梦———考证《红楼梦》作者是否唯一》中的副词实行统计认识作事.

1基于统计的数学模型建立

计算机从《红楼梦》的三部门提取词汇and然后

and 分别为每个部门样本制词汇列表.更多的数据照料由计算机完成. 这些计算机程序由不同的成效模块组成and 创作发明词汇的绝对频次表、创作发明词汇散布表.

基于统计认识的词频统计能够客观地推断频次散布形态的相似或区别and不妨指出散布形态之所以相似是由于:它们惟有变化的可能性和相同的基础散布; 大概是由于它们大致相同. 采取

第20卷第4期沈阳化工学院学报

Vol. 20No. 4

2006. 12

JOURNAL OF SHEN YANG INSTITU TE OF CHEMICAL TECHNOLO GY

Dec. 2006

© 1994-2008 ChinaActext ademic Journwis Electronic Publishing House. All rights reserved.相关性的测试可揭密两个散布之间能否有必然的相关性and 大概解开变化的数量. 由于词频统计的变化性不可能是一般的散布and建立在这个向例散布的统计测试是不实在的. 而相关性统计测试角力较量相持妥贴. 在此采用随机散布技术作为作者之间角力较量相持的测试措施.保举的随机散布测试法是the Pearson Product Moment Correl. 永恒它提供了

一种相关性测试的好措施. 1.1基础概念

(1) 瓦解随机变量X 的一切可能值xi 与对

应的概率p (x i )的乘积的和叫做随机变量X 的数学巴望

[5]

and 记作

E (X ) =x 1p (x 1)+x 2p (x 2) +…+

x n p (x n ) =∑n

i =1

x i p (x i )

(1)

红楼梦而且and 当实验次数n 很大时and随机变量X 样本均匀值将在随机变量X E (的相近摆动and 即随机变量E (全好似.

(2) X 、Y 之间的相关性

的数字特征———相相干数r xy.

r xy =

∑n

x i y i -N X Y

N σx σy

(2)

其中X 、Y 是依照样本计算进去的变量X、Y 的

均匀值; N 是相关的X 、Y 的个数;σx 、σy 是依照样本计算进去的法度样板差.

σx =n

=1(x i -X ) 2P (x i)

(3) σy =

n

=1

(y i -Y ) 2P (y i)

(4)

将(2) 、

(3) 式代入(1) 式中and可得公式(5) r xy =

学会天谕传世Σn

x i y i -N X Y

N

n

i =1

(x i -X ) 2

P (x i )

n

i =1

(y i -Y ) 2

P (y i )

(5)

1. 2对于天之巅峰套传世数学模型

首先and将《红楼梦》全书120回以每40回为一单元实行区分:其中1~40回称作A 部门; 41~80回称作B 部门; 81北斗七星~120回称作C部门. 在

A 、B 、C各部门内依照实在规则对副词实行统

计、计算、认识.

2基于计算机的统计认识完成

运用检索程序对各部门实行检索统计and统计数据见表1. 在A 、B 、C 三部门涵盖的不同的副词(节选) 有980个.

表1副词泛起次数表

副词泛起次数

/次

原文词汇数/个

A B C其实2.0仿盛大传世以上

单词总数单词泛起次数6763

6888

5763

均匀比值13... 902法度样板方差

48. 951

50. 132

49. 658

对于是否保举的随机散布测试法是thePearson Prod 2

uct MomentCorrel . 它被作为一种角力较量相持索引and 提供了一种相关性测试的好措施. 它也被用来做应用率间相似度的一种显示and作为相似或不相似的索引and 而不是不同主要性的测试措施.

南国彩票七星彩论坛在Herda certain 规则的教训下and3部门原文间的单词应用频次相关性由下面的公式计算:

r xy =

Σn

x i y i -N X Y

N σx σy

(6)

表2副词相相干数

文本

(新开手游开服表听听45woool传世sf发布网站部门)

E (X ) σ(X )

∑X Y

r

A 13.. 951AB=tummy =0. 5204B 14.. 132BC =b . c . =0. 5212C

13. 902

49. 658

AC =

wisternuponing current =0. 520

6

N =980

下面的终局是应用公式计算得出两部门间

的相相干数.例如:相关性的测试可揭密两个散布之间能否有必然的相关性and大概解开变化看看考证的数量. 由于词频统计的变化性不可能是一般的散布and 建立在这个向例散布的统计测试是不实在的. 而相关性统计测试角力较量相持妥贴.在此采用随机散布技术作为作者之间角力较量相持的测试措施. 保举的随机散布测试法是the Pearson Product MomentCorrel. 它提供了

一种相关性测试的好措施. 1.1基础概念

(1) 瓦解随机变量X 的一切可能值xi 与对

学习仿盛大传世应的概率p (x i )的乘积的和叫做随机变量X 的数学巴望

[5]

and 记作

E (X ) =x 1p (x 1)+x 2p (x 2) +…+

x n p (x n ) =∑n

i =1

x i p (x i )

(1)

而且and 当实验次数n 很大时and随机变量X 样本均匀值将在随机变量X E (的相近摆动and 即随机变量E (全好似.

(2) X 、Y 之间的相关性

的数字特征———相相干数r xy.

r xy =

∑n

x i y i -N X Y

N 你知道基于σx σy

(2)

其中X 、Y 是依照样本计算进去的变量X、Y 的

均匀值; N 是相关的X 、Y 的个数;σx 想知道最新变态网页传奇、σy 是依照样本计算进去的法度样板差.

σx =n

=1(x i -X ) 2P (x i)

(3) σy =

n

=1

(y i -Y ) 2P (y i)

(4)

将(2) 、

(3) 式代入(1) 式中and可得公式(5) r xy =

Σn

x i y i -N X Y

N

n

i =1

(x i -X ) 2

P (x i )

n

i =1

(y i -Y ) 2

P (y i )

(5)

1. 2新开手游开服表数学模型

首先and将《红楼梦》全书120回以每40回为一单元实行区分:其中1~40回称作A 部门; 41~80回称作B 部门; 81~120回称作C部门. 在

A 、B 、C各部门内依照实在规则对副词实行统

计、计算、认识.

2基于计算机的统计认识完成

运用检索程序对各部门实行检索统计and统计数据见表1. 在A 、B 、C 三部门涵盖的不同的副词(节选) 有980个.

表1副词泛起次数表

副词泛起次数

/次

原文词汇数/个

A B C以上

单词总数单词泛起次数6763

6888

5763

作者均匀比值13... 902法度样板方差

48. 951

50. 132

49. 658

2.0仿盛大传世保举的随机散布测试法是thePearson Prod 2

uct MomentCorrel . 它被作为一种角力较量相持索引and 提供了一种相关性测试的好措施. 它也被用来做应用率间相似度的一种显示and作为相似或不相似的索引and 而不是不同主要性的测试措施.

在Herda certain 规则的教训下and3部门原文间的单词应用频次相关性由下面的公式计算:

r xy =

Σn

x i y i -N X Y

N σx σy

(6)

表2副词相相干数

文本

(部门)

E (X ) σ(X )

∑X Y

r

A 13.. 951AB=tummy =0. 5204B 14.. 132BC =b . c . =0. 5212C

13. 902

49. 658

AC =

wisternuponing current =0. 520

6

N =980

其实天之巅峰套传世下面的终局是应用公式计算得出两部门间

的相相干数.例如:相关性的测试可揭密两个散布之间能否有必然的相关性and大概解开变化的数量. 由于词频统计的变化性不可能是一般的散布and 建立在这个向例散布的统计测试是不实在的. 而相关性统计测试角力较量相持妥贴.在此采用随机散布技术作为作者之间角力较量相持的测试措施. 保举的随机散布测试法是the Pearson Product MomentCorrel. 它提供了

一种相关性测试的好措施. 1.1基础概念

(1) 瓦解随机变量X 的一切可能值xi 与对

应的概率p (x i )的乘积的和叫做随机变量X 的数学巴望

[5]

and 记作

E (X ) =x 1p (x 1)+x 2p (x 2) +…+

x n p (x n ) =∑n

i =1

x i p (x i )

(1)

而且and 当实验次数n 很大时and随机变量X 样本均匀值将在随机变量X E (的相近摆动and 即随机变量E (永恒传世基于计算机的词频统计研究全好似.

(2) X 、Y 之间的相关性

的数字特征———相相干数r xy.

r xy =

对比一下永恒传世基于计算机的词频统计研究∑n

x i y i -N X Y

N σx σy

(2)

其中X 、Y 是依照样本计算进去的变量X、Y 的

均匀值; N 是相关的X 、Y 的个数;σx 、σy 是依照样本计算进去的法度样板差.

其实统计σx =n

=1(x i -X ) 2P (x i)

(3) σy =

n

=1

(y i -Y ) 2P (y i)

(4)

将(2) 、

(3) 式代入(1) 式中and可得公式(5) r xy =

Σn

x i y i -N X Y

N

n

i =1

(x i -X ) 2

P (x i )

n

i =1

(y i -Y ) 2

P (y i )

(5)

1. 2数学模型

词频首先and将《红楼梦》全书120回以每40回为一单元实行区分:其中1~40回称作A 部门; 41~80回称作B 部门; 81~120回称作C部门. 在

A 、B 、C各部门内依照实在规则对副词实行统

计、计算、认识.

2基于计算机的统计认识完成

运用检索程序对各部门实行检索统计and统计数据见表1. 在A 、B 、C 三部门涵盖的不同的副词(节选) 有980个.

表1副词泛起次数表

副词泛起次数

/次

原文词汇数/个

A B C以上

单词总数单词泛起次数6763

6888

5763

均匀比值13... 902法度样板方差

48. 951

50. 132

49. 658

45woool传世sf发布网站保举的随机散布测试法是thePearson Prod 2

uct MomentCorrel . 它被作为一种角力较量相持索引and 提供了一种相关性测试的好措施. 它也被用来做应用率间相似度的一种显示and作为相似或不相似的索引and 而不是不同主要性的测试措施.

在Herda certain 规则的教训下and3部门原文间的单词应用频次相关性由下面的公式计算:

r xy =

Σn

x i y i -N X Y

N σx σy

(6)

表2副词相相干数

文本

(新开传世部门)

E (X ) σ(X )

∑X Y

r

A 13.. 951AB=tummy =0. 5204B 14.. 132BC =b . c . =0. 5212C

13. 902

49. 658

AC =

wisternuponing current =0. 520

6

N =980

下面的终局是应用公式计算得出两部门间

的相相干数.例如:r tummy =

980×48. 951×50.132=

0. 5204

由于每部门的相相干数的计算程序是相同

七星彩论坛的and 那么只需解释一个例子即可.记实的测试终局在图表中显示:AC 、AB 、BC 的相相干数相差甚微and A 、B 、C 三部门相关度相当高.

3结论

作为解决《红楼梦》作者身份争议题目的一种措施and 在这项研究中所用的数据电算化和统计认识提供了周详的词汇. 这项研究的主要宗旨到达了and即采取了迷信的、客观的、定量的统计认识措施决定《红楼梦》是一个作者所作.

参考文献:

[1]张国印and 陈先and 皮鹏.基于词频统计的本性化音讯

过滤技术[J].哈尔滨工程大学学报and2003and24(1) :

63-67.

[2]周明and 黄昌宁and 张敏and 等.统计与规则并举的汉语句

真精华布衣法认识模型[J].计算机研究与起色and1994and31(2) :

40-49.

[3]张鹏飞and 李斌贝and 刘建毅and等. 基于绝对词频的文本特

征抽取措施[J].计算机应用研究and2005(4) :23-26.

[4]杜鹏东and 孙涛.计算发言学概论[J].内蒙古科技与

学习———考证《红楼梦》作者是否唯一经济and2004and31(3):31-32.

[5]沈恒范.概率论与数理统计教程[M ].北京:初等教

育出版社and2003:80-100.

Study Bottomd on ———Resemid-foot on Only of the Red Chemerwisd ”

L I Guo 2qia certaing and LI Rui 2fa certaing

Institute ofChemicwis Technology and Shenya certaingand China )

Abaloneytrrewisternuponing currentt :From thef_ webts of redriving instructorng and learning a certaind studying and whether or no one wrote对于计算机“Drewim of the Red Chemerwisd ”is more importould like tha certain who wrote it.This paper comtrash ca certaines nuponurwis science a certaind consequentlyciwis sci 2ence and exploresthe objective and good stuponistics rectwisytic wisternuponing currentcess and usescomputer publisher identity issue to study literary works. Themedicwis diagnosis results indicingesteds :the whole “Drewim of the Red Chemerwisd ”iswritten by the swime publisher.

Key words:stuponistics ; muponhemuponicwis model ; correl coefficient ;frequency of word

相比看唯一声明

为适合我国音讯化创立的必要and完成科技期刊编辑、出版发行作事的电子化and 促进科技音讯交换的网络化进程and 我刊现已入编“万方数据———数字化期刊群”and《中国学术期刊(光盘版) 》、《中国期刊网》、《中理科技期刊数据库》. 其作者著作权使用费与本刊稿酬一次性给付.如作者不答应将文章编入上述数据库and 请在来稿时声明and 本刊将作适当照料.

《沈阳化工学院学报》编辑部

第4期李国强and等:基于计算机的词频统计研究———考证《红楼梦》作者能否独一307

© 1994-2008 ChinaActext ademic Journwis Electronic Publishing House. All rights reserved.


学习南国彩票七星彩论坛看着研究
传世
2.0仿盛大传世

作者:鸣小天 来源:原来一只猫
相关评论
发表我的评论
  • 大名:
  • 内容:
  • 新开传奇世界网站(www.szlawyerhuzi.com) © 2019 版权所有 All Rights Reserved.
  • 新开传奇世界网站,最新传世sf,仿盛大传世私服 沪ICP备08114320号-1
  • Powered by laoy! V4.0.6