lstm纠正错别字模型。

从零开始训练，可以识别常见的“的地得”，“做/作”，“在/再”。
训练数据有一半来源于我写的小说，另一半来源于聊天、人工编写，其他来源等。
目的是快速检查自己小说的错误，一个字一个字看太慢了，于是自己训练一个。
代码是AI写的，数据都是自己的，目前效果不错，大部分都能改对。

未来可能会扩展其他错别字。

不感兴趣

开通SVIP免广告

不是预训练模型，从零开始的，用了2000多条文本数据，模型比较小，所以在手机上训练也很快。未来随着数据增多会扩大。

你这种需求，直接用最小的开源的大模型就可以了。0.6B 的就可以。

牛，源码、数据和模型在手比那些语言大模型实在多了

其实可以用小模型还有预训练权重重新加权训练，让ai帮你调数据集，参数，写gui之类的。ai给的网络特别阉割

其实也是我对训练模型感兴趣哈哈哈，所以没想找开源的，谢谢大家的建议。

回应一下大家说的小模型训练，大家说的都有道理，但我觉得不太可行。因为生成式模型终究不能检查每一个关键字，而且生成的时候还是一个字一个字的蹦出来。没有办法做到瞬间就检查所有字而且还把修改后的全文发我。
判别式模型把每一个修改的地方都写出来，然后再把改后的完整小说贴出来，整个过程也就1秒。语言模型没办法比。而且我之前也试过大模型改错别字，缺点就是慢，而且会漏字，我才转而自己训练的。