0.99656 99%相似
0.91050 91%,编码化完成无效!
0.94050 91%,中间插入关键词,无效!
0.90531 90%,警戒线!!(同义词替换,+相同长度,)
0.86941 86%,安全线,稍微不同,(重要词差不多,句子有不一样)
0.63821 63%,原创,几乎可以算原创
0.38711 38%,绝对安全!!!
百度,短文本相似度,测量的大概数据。
可以看到词语向量在检测原创里发挥了多大的重量!算法还有词义,词法分析,还有些特征码检测。
如果光是句子检测,100%无法逃脱检测!但如果是文章,就还有些不一样的空间,因为需要采集信息指纹,检测的前提是要找到2个对应的样本句子。
#开发文档:
https://www.cnblogs.com/simuhunluo/p/7519712.html
#应用入口:(超级难找)
https://console.bce.baidu.com/ai/?locale=zh-cn&fromai=1#/ai/ocr/app/detail~appId=381238
https://console.bce.baidu.com/ai/?locale=zh-cn&fromai=1#/ai/ocr/overview/index
AppID:11333867
API Key:mz34N7Uxhl13CX0oDc3Pbzf6
Secret Key:yr8ssh7QFmqL0nq9XGqlYWTa0GRXKsci
#Token是通过这个页面申请的:(还需要php调用代码)
#获取token文档:http://ai.baidu.com/docs#/Auth/top
https://aip.baidubce.com/oauth/2.0/token?
grant_type=client_credentials&client_id=mz34N7Uxhl13CX0oDc3Pbzf6&client_secret=yr8ssh7QFmqL0nq9XGqlYWTa0GRXKsci&
24.f2e540fc13e88a5b772fb48c3a82faf8.2592000.1530417406.282335-11333867
#最开始指南文档:(总的流程步骤,先要3个秘钥,再生成token,再开始具体的)
http://ai.baidu.com/docs#/Begin/top
#调用接口文档:
https://ai.baidu.com/docs#/NLP-API/c150c35a
#token页面:
https://console.bce.baidu.com/iam/?_=1527821881616/&locale=zh-cn#/iam/accesslist
#监控调用是否成功:
https://console.bce.baidu.com/ai/?_=1527820978800&fromai=1#/ai/nlp/report/index~apiId=9