067. 编写一个函数，实现简单的自然语言处理功能，分词、情感解析

在 Python 中，可以使用 jieba 库进行中文分词，以及使用 TextBlob 或 transformers 库进行情感分析。以下是一个示例代码，展示如何编写一个函数来实现简单的自然语言处理功能，包括分词和情感分析。

安装依赖库

在开始之前，请确保你已经安装了以下库：

jieba：用于中文分词。
textblob：用于英文情感分析。
transformers：用于更高级的情感分析（支持多种语言）。

可以通过以下命令安装：

pip install jieba textblob transformers

示例代码

以下代码定义了一个函数 simple_nlp，支持中文分词和情感分析。

import jieba
from textblob import TextBlob
from transformers import pipeline

def simple_nlp(text, language="zh", use_transformers=False):
    """
    简单的自然语言处理函数，支持分词和情感分析

    :param text: 输入文本
    :param language: 文本语言，默认为中文 ('zh')
    :param use_transformers: 是否使用 transformers 库进行情感分析，默认为 False
    :return: 分词结果和情感分析结果
    """
    # 分词
    if language == "zh":
        tokens = jieba.lcut(text)
        print("分词结果：", "/".join(tokens))
    else:
        tokens = text.split()
        print("分词结果：", " ".join(tokens))

    # 情感分析
    if language == "en" and not use_transformers:
        # 使用 TextBlob 进行英文情感分析
        blob = TextBlob(text)
        sentiment = blob.sentiment
        print(f"情感分析结果：极性={sentiment.polarity:.2f}, 主观性={sentiment.subjectivity:.2f}")
    else:
        # 使用 transformers 进行情感分析
        classifier = pipeline("sentiment-analysis")
        result = classifier(text)
        print("情感分析结果：", result)

    return tokens, result if use_transformers else sentiment

# 示例用法
if __name__ == "__main__":
    # 中文文本
    chinese_text = "自然语言处理是一门很有趣的学科。"
    tokens, sentiment = simple_nlp(chinese_text, language="zh", use_transformers=True)

    # 英文文本
    english_text = "Natural language processing is a fascinating field."
    tokens, sentiment = simple_nlp(english_text, language="en", use_transformers=False)

代码说明

分词：

对于中文文本，使用 jieba.lcut() 进行分词。
对于英文文本，直接使用空格分割。

情感分析：

对于英文文本，使用 TextBlob 进行情感分析。TextBlob 提供了情感极性（polarity）和主观性（subjectivity）两个指标。
对于其他语言或更复杂的情感分析，可以使用 transformers 库。transformers 提供了预训练的情感分析模型，支持多种语言。

参数说明：

language：指定文本语言，默认为中文（zh）。支持 zh（中文）和 en（英文）。
use_transformers：是否使用 transformers 库进行情感分析。默认为 False，使用 TextBlob。

示例输出

假设输入文本为中文和英文，输出可能如下：

分词结果： 自然/语言/处理/是/一门/很/有趣/的/学科/。
情感分析结果： [{'label': 'POSITIVE', 'score': 0.9987}]

分词结果： Natural language processing is a fascinating field.
情感分析结果：极性=0.75, 主观性=0.60

注意事项

分词效果：jieba 是一个专门用于中文分词的库，效果较好。对于其他语言，可以使用其他分词工具，例如 nltk（自然语言处理工具包）。

情感分析模型：

TextBlob 的情感分析模型较为简单，适用于英文文本。对于更复杂的情感分析，建议使用 transformers 库。
transformers 库需要下载预训练模型，可能需要一定的内存和计算资源。

多语言支持：如果需要处理多种语言，建议使用 transformers 库，它支持多种语言的情感分析。

扩展功能

如果你需要更高级的自然语言处理功能，可以考虑以下库：

spaCy：一个功能强大的自然语言处理库，支持多种语言。
NLTK：自然语言处理工具包，支持多种语言和多种自然语言处理任务。
Hugging Face Transformers：提供了大量预训练模型，支持多种自然语言处理任务，包括情感分析、文本分类、机器翻译等。

视频讲解

BiliBili： 视睿网络-哔哩哔哩视频 (bilibili.com)