适度
了解如何在您的人工智能应用程序中建立适度。
一览表
审核端点是一个工具,用于检查文本是否潜在的有害。开发人员可以使用它来识别可能有害的内容并采取行动,例如通过过滤器。
模型将分类以下类别:
| 类别 | 描述 | 
|---|---|
| hate | 表达、煽动或促进种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的仇恨的内容。仇恨内容针对的非保护群体(例如,棋手)是骚扰。 | 
| hate/threatening | 包含对基于种族、性别、民族、宗教、国籍、性取向、肢体状况或印度级别的目标的暴力或严重伤害的仇恨内容。 | 
| harassment | 表达、煽动或促进对任何目标的骚扰语言的内容。 | 
| harassment/threatening | 包含对任何目标的暴力或严重伤害的骚扰内容。 | 
| self-harm | 促进、鼓励或描述自残行为的内容,例如自杀、割肉和饮食障碍。 | 
| self-harm/intent | 发言人表示正在从事或有意从事自残行为的内容,例如自杀、割肉和饮食障碍。 | 
| self-harm/instructions | 鼓励执行自残行为的内容,或者提供有关如何执行这些行为的建议或说明,例如自杀、割肉和饮食障碍。 | 
| sexual | 旨在引起性兴奋的内容,例如性活动的描述,或者促进性服务(排除性教育和健康)。 | 
| sexual/minors | 包含年龄小于18岁的个体的性别内容。 | 
| violence | 描述死亡、暴力或身体伤害的内容。 | 
| violence/graphic | 以细节丰富的方式描述死亡、暴力或身体伤害的内容。 | 
审核端点对大多数开发人员免费使用。为了获得更高的精度,请尝试将长的文本分成更小的块,每个块不到2,000个字符。
注意:我们正在不断努力改善我们的分类器的准确性。我们对非英语语言的支持目前有限。
快速启动
要获得一段文本的分类,请按照以下代码片段中所示的方式向审核端点发出请求:
curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Sample text goes here"}'
以下是端点的示例输出。它返回以下字段:
- flagged:如果模型将内容分类为潜在的有害,则设置为- true,否则为- false。
- categories:包含每个类别的违规标志。对于每个类别,如果模型将其标记为违规,则值为- true,否则为- false。
- category_scores:包含每个类别的原始分数输出模型,表示模型对输入违反OpenAI的该类别的策略的信心。该值在0和1之间,其中较高的值表示较高的信心。这些分数不应解释为概率。
{
    "id": "modr-XXXXX",
    "model": "text-moderation-007",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "hate": false,
                "harassment": false,
                "self-harm": false,
                "sexual/minors": false,
                "hate/threatening": false,
                "violence/graphic": false,
                "self-harm/intent": false,
                "self-harm/instructions": false,
                "harassment/threatening": true,
                "violence": true
            },
            "category_scores": {
                "sexual": 1.2282071e-6,
                "hate": 0.010696256,
                "harassment": 0.29842457,
                "self-harm": 1.5236925e-8,
                "sexual/minors": 5.7246268e-8,
                "hate/threatening": 0.0060676364,
                "violence/graphic": 4.435014e-6,
                "self-harm/intent": 8.098441e-10,
                "self-harm/instructions": 2.8498655e-11,
                "harassment/threatening": 0.63055265,
                "violence": 0.99011886
            }
        }
    ]
}
注意:我们计划不断升级审核端点的底层模型。因此,随着时间的推移,可能需要对基于
category_scores的自定义策略进行再校准。