跳至主要内容

外媒报道中国传媒大学科研成果:人类组织语言分为直觉、理性两个过程

来自中国传媒大学的研究人员进一步证实了语言中存在的Zipf定律,并发现人类说话时也遵循双过程理论。本文经授权译自MIT Technology Review原标题为" DATA MINING REVEALS FUNDAMENTAL PATTERN OF HUMAN THINKING "的文章。
早在1935年,美国语言学家George Zipf就有了一个惊人的发现。Zipf对常用单词和不常用单词之间的关系很感兴趣。所以他计算了单词在日常语言中出现的频率,然后根据它们的频率对单词进行排序。
这一研究揭示了一个显著的规律。Zipf发现一个单词的频率与它在排序中的位置成反比。也就是说,排名第二的单词出现的频率是最常出现的单词的一半。排名第三的单词出现的频率是最常出现的单词的三分之一,以此类推。
在英语中,最常用的单词是the,占所有单词的7%,然后是and, 占所有单词的3.5%,以此类推。事实上,大约有135个单词出现的频率占了所有单词的一半。因此,一些单词经常出现,而大多数几乎从未出现过。
但这是为什么呢?一种有趣的可能性是,大脑处理常用单词的方式不同与处理生僻单词的方式不同,研究Zipf的单词使用频率分布对研究大脑的这种处理过程非常重要。
不过,这里有一个问题。语言学家并不都同意,单词频率的统计分布是认知过程的结果。
相反,一些人认为Zipf发现的分布是与低频词汇相关的统计错误的结果,这些错误可以产生相似的分布。
当然,为了解决这个问题,我们需要做更大范围的研究,囊括更广泛的语言。这样一项大规模的研究能使Zipf分布在统计上更有说服力,已验证其是否为统计错误。
如今,我们有了相关的研究成果,这要归功于中国传媒大学的Shuiyuan Yu和他的同事们的努力。他们已经在50种语言中发现了Zipf定律,这些语言包括印欧语系、乌拉尔语、阿尔泰语、高加索语、汉藏语、德拉威语、非亚语系等。
Yu和他的同事说,这些语言中的单词的频率遵循一个共同的分布结构,这种结构不同于统计错误所产生的结构。更重要的是,他们说这种结构表明大脑处理常见词汇的方式与不常见词汇不同,这一观点对自然语言处理和自动生成文本的研究有重要的影响。
Yu和他的同事采用的方法很简单。他们从两大语料库开始,分别为英国国家语料库和莱比锡语料库。这些语料库包括50种不同的语言样本,每个样本包含至少3万句话,多达4300万的词汇。
研究人员发现,所有语言中的频率都遵循一个经过修正的Zipf定律,在这个定律中,分布可以被分成三个部分。Yu说:“统计结果表明,在50种语言中Zipf定律都遵循一个相同的三段结构模式,每一段都表现出独特的语言特性。”
这个三段结构很有趣。Yu和他的同事试图用一些能创建单词的模型来模拟这种结构。
其中一种模型叫做“monkey-at-a-typewriter”模型,它可以生成随机的字母,每当有空格出现时,就会形成单词。
这个过程产生一个幂律分布,就像Zipf定律那样。然而,它不能产生于Yu和同事们所发现的三段结构。这种结构也不能由与低频词相关的统计错误产生。这也证明Zipf定律不是由统计错误造成的。
然而,Yu和他的同事能够利用具有大脑工作方式的模型来重现这种结构,即双重过程理论。
这就是大脑以两种不同的方式运作的观点。
第一种方式是快速直观的思维,几乎不需要推理。这种类型的思维被认为是进化所致,它允许人类在危险的情况下做出快速反应。它通常能为困难问题的解决提供很好的方案,比如模式识别,但是也很容易被非直觉的情况所欺骗。
不过不用担心,人类还可以进行更理性的思考。第二种思维方式更慢,更精于算计,更深思熟虑。正是这种思维让我们能够解决诸如数学难题之类的复杂问题。
双重过程理论认为,像the、and和if这样的常用词汇,都是通过快速、直观的思维来处理的,因此被更频繁地使用。这些词汇构成了句子的主要部分。
然而,像假设和hypothesis 和Zipf’s Law 这种不太常见的词汇和短语在应用时需要更仔细的思考。也正是因为如此,它们很少出现。
事实上,当Yu和他的同事模拟双重过程理论时,他们得到了在单词频率分布中产生的三段结构,类似之前研究50种不同的语言时得到的结构。
在三段结构中,第一部分反映了常见词汇的分布,最后一部分反映了不常见词汇的分布,中间部分是这两种词汇交叉的结果。Yu和他的同事说:“这些结果表明,语言中的Zipf定律是由认知机制所激发的,类似控制人类语言行为的双重过程。”
这是一项很有趣的研究。近年来,人类大脑以两种不同方式处理信息的想法获得了长足发展,尤其是因为诺贝尔奖得主、心理学家丹尼尔卡尼曼的《思考,快与慢》一书,对双重过程理论进行了详细的研究。
下面这个众所周知的问题,可以触发快速和缓慢的思考:
“一个球拍和一个球总共花费了1.10美元。球拍比球贵1美元,一个球要多少钱?”
答案当然是5美分。但几乎每个人的第一反应都是10美分。这是因为10美分在直观感觉上是正确的。这个答案来自于你大脑快速、直观的一面。
但这是错误的。正确的答案需要你大脑中较慢、更精于计算的部分来思考。
Yu和他的同事说,人类造句是也经过同样的两个过程。你大脑中快速思考的部分创造了句子的基本结构。另外一些词汇需要你的大脑更慢,更精于计算的部分。
正是这个双重过程导致了具有三段结构的Zipf定律。
这应该会对从事自然语言处理的计算机科学家的研究产生有趣的结果。这一领域的发展得益于近年来的巨大进步。他们得益于机器学习算法,或者像谷歌这样的公司收集的大量文本数据库。
但是,生成自然语言仍然很困难。你不需要和Siri、Cortana或谷歌助手聊太长时间,就遇到和他们的谈话限制。
因此,搞清楚人类如何造句,可能会对机器生成自然语言有很大的帮助。Zipf也肯定会被这项技术深深吸引。

评论

此博客中的热门博文

【反邪 | 柳州:融安县东起乡扶贫能手勇当反邪先锋】(龙政光)#我为反邪教代言##柳州反邪#在抗击新型冠状病毒感染的肺炎疫情的战疫中,融安县东起乡驻村工作队的队员们一直战斗在疫情防控一线,他们既是扶贫能手又是反邪先锋。疫情期间他们入户确保贫困户生活能得到保障、进行外来人口摸排、对重点对象进行监测、进行产业政策宣传、动员复工复产确保脱贫成果。同时向村民普及反邪教知识,进行防疫知识宣传并发放反邪教宣传手册,告诉他们什么是邪教,邪教的危害,要做到认知邪教,拒绝邪教!提醒村民防范邪教,防止邪教组织在疫情紧张时期拉拢蛊惑群众,如有外来人员宣传邪教时马上打110报警。反邪教工作的持续开展确保了东起乡的稳定安宁。@广西反邪教 @柳州政法

【反邪 | 柳州:融安县东起乡扶贫能手勇当反邪先锋】(龙政光)#我为 反邪教 代言##柳州反邪#在抗击新型冠状病毒感染的肺炎疫情的战疫中,融安县东起乡驻村工作队的队员们一直战斗在疫情防控一线,他们既是扶贫能手又是反邪先锋。疫情期间他们入户确保贫困户生活能得到保障、进行外来人口摸排、对重点对象进行监测、进行产业政策宣传、动员复工复产确保脱贫成果。同时向村民普及 反邪教 知识,进行防疫知识宣传并发放反 邪教 宣传手册,告诉他们什么是 邪教 , 邪教 的危害,要做到认知 邪教 ,拒绝 邪教 !提醒村民防范 邪教 ,防止 邪教 组织在疫情紧张时期拉拢蛊惑群众,如有外来人员宣传 邪教 时马上打110报警。 反邪教 工作的持续开展确保了东起乡的稳定安宁。@广西 反邪教 @柳州政法

看《银翼杀手2049》前,先看看原著小说吧

电影名气这么大,原著小说也不简单,来自美国科幻界大师菲利普·迪克的《仿生人会梦见电子羊吗?》 菲利普·迪克精装套系 (美)菲利普·迪克 著 许东华 等译 译林出版社 2017年10月   韩松   1982年,雷德利·斯科特导演的电影《银翼杀手》上映,成为电影史上的科幻经典。时至今日,《银翼杀手》的魅力丝毫未减,其影响之深远已经超越了电影。35年后,电影续集《银翼杀手2049》10月27日在国内上映。电影名气这么大,原著小说也不简单,来自美国科幻界大师菲利普·迪克的《仿生人会梦见电子羊吗?》,这本有着奇怪名字的小说,是菲利普·迪克最负盛名的作品,也是各大科幻书单的必读书目,电影《银翼杀手》和《银翼杀手2049》的人物角色和灵感设想就是发源于此。   菲利普·迪克精装套系包括《仿生人会梦见电子羊吗?》《高堡奇人》《少数派报告》《尤比克》《流吧!我的眼泪》五部科幻小说。作品集中探讨“何为真实”以及“个体身份建构”,盛名经久不衰,有多部作品被改编成电影,包括《银翼杀手》《少数派报告》《全面回忆》等。以其名字命名的菲利普·K·迪克奖是美国科幻界的主要奖项之一。    生前潦倒,死后盛名   关于迪克的生平,如今人们介绍得已经很多了,大致是这么一些情况:   他生于1928年,卒于1982年,只活了54岁。他作品中的不少人物,差不多也都命不长。   他活着时,几乎就是个“撸瑟”,也就是失败者。他有一个双胞胎妹妹,但出生后五周就死了。迪克认为是母亲照料不周,因此恨他妈,家庭关系不好。而父亲在迪克四岁时,也抛家而去。迪克结过五次婚,都离了。成年迪克靠安非他命活着,还吸毒,经常陷入神经错乱中。他有严重的焦虑症,不能与人正常交往。他还患上了妄想症,认为自己被联邦调查局和中央情报局监视。他有广场恐惧症,连在公众面前吃东西,都感到困难。他还患上了抑郁症,曾尝试自杀。他在70年代后,沉湎于超自然,并一度称获得天启。他只短暂地上过一年大学,读哲学,在加大伯克利分校。他基本上是自学成才。他一生大部分时间居住在加利福尼亚。   他是一位多产的作家,从1952年开始写作,到1982年去世,创作了整整30年,写了44部长篇小说,以及120多篇中短篇小说。他常常为挣稿费养活自己而拼命写。他没有其他工作。他的个人经济状况很窘迫,在50年代,一度连图书馆借书...

糖尿病患者按这10种方法吃主食,升血糖慢,餐后血糖达标更有保障

主食的主要成分是碳水化合物,简称“糖类”,因为糖类会产生热量,所以吃了以后,就会升高血糖。但是,从古到今,人类生存,一日三餐,又离不开主食。 主食吃了升血糖,不吃又不行,那么,怎样才能吃主食让血糖升得慢一些呢?本文就告诉您10个方法。 1.吃粗粮比吃细粮升血糖慢 临床工作人员常会建议糖尿病患者适当吃点粗粮,就是因为粗粮中含有丰富的膳食纤维,膳食纤维是一种多糖类物质,不会被人体吸收,也不产生热量,所以,吃了不会明显升高血糖。 但是,有些患者就天天吃粗粮,甚至一天三餐,一次吃两三个馒头,那就失去了吃粗粮的意义。 粗粮中的膳食纤维掺合在细粮中,可起到延缓血糖升高的作用,吃多了,粗粮中的非膳食纤维成分同样会产生更多的热量。 所以,建议 糖尿病患者吃粗粮的时候,只是比同等量的细粮多吃几口而已,并不是吃得越多越好。最好粗粮细粮搭配着吃,交替着吃。 2.吃杂粮主食比吃纯粮主食升血糖慢 杂粮馒头指两种或两种以上的粮食磨成面粉做成的馒头,如将荞麦面、小麦面、玉米面、豆面等,其中的两种或三种,甚至四种,或者更多的面粉掺合起来做成的馒头,比单纯用一种面粉做成的馒头营养丰富,还升血糖慢。 如果 在杂粮馒头中加入部分菜叶,如芹菜叶等,升血糖更慢 。 杂米饭也是这个道理,将 大米、小米、豆类或其他米类中的两种或两种以上的米混杂在一起,蒸米饭,要比单纯蒸白米饭升血糖慢。 若在 蒸杂粮米饭的时候加入几块胡萝卜、南瓜等,还能补充一些维生素 等。 3.吃干饭比吃稀饭升血糖慢 现在很多患者知道吃大米稀饭升血糖快。这是因为稀饭经过反复熬煮、糊化,易于吸收,能够迅速升高血糖。 所以,有的患者不喝大米稀饭改喝小米稀饭, 小米稀饭同样能够较快升高血糖 。这不是大米和小米本身的原因,而是烹饪方式的结果。 任何一种米,只要熬烂,做成稀饭,都比干饭升血糖快。 为什么有的人喝麦片,升血糖快;有的人喝麦片,血糖升高不明显。升血糖慢的,是用开水冲了以后,及时食用;升血糖快的,也是缘于长时间的焖煮,性质变成稀饭了。 4.吃硬的比吃软的升血糖慢 同样是主食,如果选择 火烧、煎饼、窝头、烙饼 等相对干硬的的食物,需要较长时间的咀嚼、消化和吸收,就要比柔软的发糕、疙瘩汤、煮烂的面条等升血糖慢。 俗话说,有的人在人际交往方面,吃软不吃硬,糖尿病患者吃主食时...