自然语言处理NLP


123

自然语言处理-Natural language processing | NLP

NLP 为什么重要?

NLP0

随着OpenAI公司的ChatGPT发布以来,很多行业有了颠覆性的改变,可以说是大语言模型开启了AGI(Artificial General Intelligence)时代。科学家在这个人工智能高速发展的时期,也恍然大悟,语言才是人类产生的高级智能,因此,对于人工智能来讲,语言这条道路或许才是最接近智能核心的途径。

在人工智能出现之前,机器智能处理结构化的数据(例如 Excel 里的数据)。但是网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…

在非结构数据中,文本的数量是最多的,他虽然没有图片和视频占用的空间大,但是他的信息量是最大的。

为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

那么什么是NLP呢?

每种动物都有自己的语言,机器也是!

自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。

不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。

NLP1

而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。

既然不同人类语言之间可以有翻译,那么人类和机器之间是否可以通过“翻译”的方式来直接交流呢?

NLP 就是人类和机器之间沟通的桥梁!

为什么是“自然语言”处理?

自然语言就是大家平时在生活中常用的表达方式,相比于书面语言其逻辑性较弱。也更难让标准化的机器程序去理解。大家平时说的「讲人话」就是这个意思。

自然语言:我背有点驼(非自然语言:我的背部呈弯曲状)

NLP 的2大核心任务

自然语言理解 – NLU|NLI

自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点(下面详细说明),所以 NLU 是至今还远不如人类的表现。

自然语言理解的5个难点:

  1. 语言的多样性
  2. 语言的歧义性
  3. 语言的鲁棒性
  4. 语言的知识依赖
  5. 语言的上下文

自然语言生成 – NLG

NLP3

NLG 是为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。

NLG 的6个步骤:

  1. 内容确定 – Content Determination
  2. 文本结构 – Text Structuring
  3. 句子聚合 – Sentence Aggregation
  4. 语法化 – Lexicalisation
  5. 参考表达式生成 – Referring Expression Generation|REG
  6. 语言实现 – Linguistic Realisation

NLP 的5个难点

  1. 语言的无规律性或复杂规律性:
    • 语言是人类思维和文化的产物,因此它可以包含大量的不规则性,例如词汇的多义性、语法的灵活性等。这使得开发能够准确理解和处理自然语言的算法变得复杂和困难。
  2. 自由组合和复杂性:
    • 自然语言具有无限的表达方式,因此处理其复杂性是一项挑战。这需要建立强大的模型来理解语言的结构和含义,并且能够处理不同文本之间的差异。
  3. 开放性:
    • 语言是不断发展和演变的,新词汇、新短语和新的语法结构不断涌现。因此,NLP系统需要具备足够的灵活性和适应性,以便能够处理新出现的语言形式。
  4. 实践知识的依赖:
    • 为了准确理解自然语言,有时候需要背景知识或特定领域的专业知识。这种知识依赖性使得开发通用的NLP系统变得更具挑战性,因为它们需要能够获取、理解和利用各种领域的知识。
  5. 上下文和环境依赖性:
    • 语言的含义通常依赖于上下文,例如指代消解、歧义消解等问题。同时,语言使用的环境也会对其含义产生影响。因此,开发NLP系统需要考虑到上下文和环境因素,并且能够根据不同的情境进行适当的解释和处理。

NLP研究难点:

NLP9

此外,从代码编程方面来说,NLP的代码量要比CV要多得多,主要是在预处理,NLP针对不同的数据集需要不同的预处理方法,这也给NLP方法间的对比造成困难。

CV相对简单,因为其技术比较成熟资料丰富。简单的我们能做,但是很难有突破。

NLP的难也意味着更大的研究前景,很多技术均处于起步阶段,市场巨大,但关键技术突破困难,形成了很多巨大的机遇。

NLP 的4个典型应用

NLP4

情感分析

互联网上有大量的文本信息,这些信息想要表达的内容是五花八门的,但是他们抒发的情感是一致的:正面/积极的 – 负面/消极的。

通过情感分析,可以快速了解用户的舆情情况。

聊天机器人

过去只有 Siri、小冰这些机器人,大家使用的动力并不强,只是当做一个娱乐的方式。但是最近几年智能音箱的快速发展让大家感受到了聊天机器人的价值。

而且未来随着智能家居,智能汽车的发展,聊天机器人会有更大的使用价值。

语音识别

语音识别已经成为了全民级的引用,微信里可以语音转文字,汽车中使用导航可以直接说目的地,老年人使用输入法也可以直接语音而不用学习拼音…

机器翻译

目前的机器翻译准确率已经很高了,大家使用 Google 翻译完全可以看懂文章的大意。传统的人肉翻译未来很可能会失业。

NLP 的 2 种途径、3 个核心步骤

NLP 可以使用传统的机器学习方法来处理,也可以使用深度学习的方法来处理。2 种不同的途径也对应着不同的处理步骤。详情如下:

方式 1:传统机器学习的 NLP 流程

NLP5

语料预处理

中文语料预处理4 个步骤

NLP6

英文语料预处理的 6 个步骤

NLP7

特征工程

  1. 特征提取
  2. 特征选择

选择分类器

方式 2:深度学习的 NLP 流程

NLP8

应用场景

常见的研究领域:

词义消解、指代消解、语义角色标注、中文分词、问答系统、情感倾向性分析、推荐系统、阅读理解、知识图谱、隐喻机器处理、命名实体识别、关系挖掘、事件提取、文本分类、信息检索、信息抽取、机器翻译等。

常见的NLP模型:

RNN、Seq2Seq、Transformer、GRU、GPT、LSTM、Bert系列、Elmo、 XLNet等。


文章作者: April
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 April !
  目录