galgame吧 关注:1,772,702贴子:25,975,516
  • 14回复贴,共1

gal机器翻译简介-翻译流程与工具介绍

只看楼主收藏回复

使用galupts后遇到了一些问题,对比了下曾经使用过的机翻工具,顺便写个帖子简单介绍下我接触的工具,介绍下机翻注意的东西,是总结性的入门知识。
提前感谢大佬们制作的工具和教程!
目录:
一、翻译流程
二、文本提取
三、文本翻译
四、机翻工具简介
目前前面两个写完了,翻译那节写一半,机翻工具比较多需要整理一下资料,顺便找一下资源分享,因此后面两节节可能晚一点发。
我也是萌新一枚,写的不对的地方请大佬们指正。


IP属地:安徽来自Android客户端1楼2023-04-19 10:08回复
    一、翻译流程
    简单的说就是文本提取+文本翻译
    就跟你人做翻译一下,先是用眼睛看待翻译的文本是什么,然后经过你的大脑处理获得翻译后的文本,如果你是汉化组的佬就还可以把文本做个替换(也就是汉化补丁)
    总结的讲,文本提取包括OCR,HOOK,解包;文本翻译包括使用各大翻译网站,使用训练好的翻译模型
    前排提醒:如果你不要求内嵌汉化文本,或者你不是技术佬,最好不要尝试解包汉化(毕竟本身有版权问题)。


    IP属地:安徽来自Android客户端2楼2023-04-19 10:09
    回复
      2025-08-18 11:10:17
      广告
      不感兴趣
      开通SVIP免广告
      二、采集文本
      (一)OCR
      (1)百度的定义:OCR(光学字符识别,Optical Character Recognition)是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程
      通俗的讲就是识别图像中的文字
      (2)了解图像预处理
      OCR的处理对象是图像,所以涉及到对图像的处理,因此使用OCR前,大佬们会提示你几个注意的点以提高识别速度和正确率:①设置里,文本出现速度调到最快;②设置里,文字框的透明度调到最低;③设置里,调整文本的字体到常规
      理由显而易见,一个是以最快的时间获得整句话防止对同一句话多次ocr;一个是防止无意义像素干扰ocr;最后一个是如果你设置ocr对应字体的数据集那也没事,但做不到,所以调整到常规字体提高ocr正确率。
      而图像预处理,就是对你框选的区域,在ocr前先进行一些图像处理,比如二值化(通俗的理解是把彩色变成黑白),比如锐化(通俗的理解是提取边缘),比如去除噪点。
      有的机翻工具会自动进行预处理,有的直接跳过了这一步。
      (3)为什么有的需要使用ocr api?
      api,意即应用程序接口。使用api的意思就是,直接把你获得的图像,直接提交到对应的应用程序或者网站,由它们处理好获得文本再传输给你。
      有的机翻工具会要求你必须填上ocr api(别跟翻译的api搞混了),有的会使用离线ocr,意思就是自己做ocr,用训练好的ocr模型来处理。
      (4)目前使用ocr来获取文本的机翻工具:
      团子翻译器、御坂翻译器、lunatranslator、VNREX、YUKIgal翻译器等
      基本目前所有集成的翻译器都有ocr功能,且都配置了离线翻译的模型
      而且有的可以使用辞典,就是提供ocr的数据集,并且校准你的文本
      当然正确率和速度是需要在这中间找个平衡点的咯....
      (5)竖向ocr
      有的机翻工具支持竖排文本的ocr...哪些gal是竖排的(比如村正)
      我所知道的:lunatranslator


      IP属地:安徽来自Android客户端3楼2023-04-19 10:11
      回复
        (二)HOOK(进程钩子)
        (1)百度的定义:HOOK技术即钩子函数,钩子函数是Windows消息处理机制的一部分,通过设置“钩子”,应用程序可以在系统级对所有消息、事件进行过滤,访问在正常情况下无法访问的消息。钩子的本质是一段用以处理系统消息的程序,通过系统调用挂入系统。每当特定的消息发出,在没有到达目的窗口前,钩子程序就先捕获该消息,亦即钩子函数先得到控制权。这时钩子函数即可以加工处理该消息,也可以不作处理而继续传递该消息,还可以强制结束消息的传递。
        通俗的讲,就是用管理员权限,向你的应用程序进程里插入一个监视器,监听并提取文本,有的甚至可以直接修改文本
        如果想了解本质,请看D佬的视频BV1hU4y1Q74d
        (2)了解gal引擎
        如果你使用过vnr你就知道有个东西叫做特殊码,但我并不知道它和进程号之间是什么联系,不过我也不需要知道,只要明白特殊码可以帮助机翻工具hook到文本就行了。
        而特殊码这个东西,与gal使用的引擎有很大关系。因此vnr虽然支持大多数gal,但对一些偏门引擎制作的gal无能为力。注意,hook不是都需要用特殊码的。
        也就是说,hook对一些常见的引擎是可以做到轻松获取文本的,如果不能,你就只能选择ocr或者解包了。
        常见的引擎,主要有:krkr(krkr2、krkrz)、BGI等等
        其他的引擎请参见这个网页:
        网页链接 (3)hook的使用流程:
        ①管理员权限,这很重要
        ②找到你的gal进程(进程号)
        ③将hook注入进程,意思就是开始监听
        ④开始游戏,获得一两句文本,然后再看hook到哪些东西,然后选择那个能正确hook到文本的钩子
        (4)目前使用hook来获取文本的机翻工具:
        御坂翻译器、lunatranslator、VNREX等
        (5)hook对比ocr
        优点:速度快,正确率高(或者说能hook到就一定是对的,不然就是错的)
        缺点:有些引擎制作的gal不能用hook,但ocr却是都可以
        (6)编码的问题
        不同语言的编码不同,日语常用的SHIFT JIS,简体汉语用的GBK等等
        没有选对编码可能导致乱码。


        IP属地:安徽来自Android客户端4楼2023-04-19 10:12
        收起回复
          (三)解包
          (1)解包须知:版权问题
          这就不多讲了,懂的都懂,江湖规矩
          如果你只是拆了汉化自己玩,不用管这个。
          也是因为这个所以这部分我不好详细讲免的被毙了。(其实是因为我比较菜搞不明白Orz)
          所以,能别解包就别解包,不是搞汉化组,只是机翻自己玩的话
          (2)为什么有包?包里有什么?
          出于保密、版权、压缩文件大小这些考量,gal制作公司会根据引擎将脚本、cg、立绘、bgm等打包压缩成一个个后缀名为xp3、pat、drc、ykc等等的文件
          我们需要翻译的文本就在脚本文件里。
          (3)解包工具
          常用的有crass、GARbro等,以及诸多根据引擎写的解包工具等等,这里就不展开了。
          (4)文本提取
          脚本里除了文本还有程序,修改的时候注意别把文本外的东西改了
          因此有佬用工具,把脚本里的文本提取出来做成一个txt(排版就是一串数字+文本,数字其实就是文本对应脚本里的位置)
          这样就可以实现批量机翻
          至于使用的什么工具,也与引擎有关
          注意,这里也有编码问题
          (5)封包
          有的引擎要封包,有的不用,具体情况具体分析。封包工具也是根据引擎写的。
          (6)加密与破译的问题
          有的引擎的包是用不同方式加密的,我也不知道怎么解决,只知道有的工具是可以破译出来的....


          IP属地:安徽来自Android客户端5楼2023-04-19 10:14
          回复
            三、文本翻译
            (1)文本输入
            由第二步提取到的文本进行翻译,因此如果你提取错了....结果不用说
            所以翻译出问题的时候,先查查ocr或者hook是不是出了问题
            (2)机翻工具支持的翻译网站,就那几个啦
            需要申请api、token的:百度,google,腾讯,彩云,deepl,chatgpt,有道等
            免费的:必应,谷歌,搜狗等
            这里提一下比较有名的chat,要使用魔法,但是嘛,魔法和本身chat反应就比较久....因此对实时翻译这件事其实不太友好。所以galupts用chat批量机翻比较合理。
            (3)离线翻译模型
            不同的训练集和算法有不同性能的模型啦,这里没法讲,要不就白嫖大佬的,要不就学一下机器学习的知识。
            (4)辞书
            其实也算一种离线翻译,至少vnr里面是用来离线翻译的?
            常用的JBeijing7,金山快译
            不过我不太明白,小学馆,EDICT,Moji辞书这些,和上面的JBeijing7有啥区别...
            (5)翻译结果优化
            包括专有名次翻译之类的


            IP属地:安徽来自Android客户端6楼2023-04-19 10:38
            收起回复
              好帖


              IP属地:上海8楼2023-06-28 20:34
              回复
                文本批量提取翻译,有哪些工具呢?有考虑过chatgpt,但太难持续了。


                IP属地:湖南来自Android客户端9楼2023-09-07 15:48
                回复
                  2025-08-18 11:04:17
                  广告
                  不感兴趣
                  开通SVIP免广告
                  不懂,如果是ps2的游戏能提取文本吗,只有iso文件


                  IP属地:陕西10楼2023-09-29 18:46
                  回复
                    好贴!!基本概念都讲清楚了 让我知道需要做什么 有什么方式


                    IP属地:重庆11楼2024-01-23 11:20
                    回复
                      封包这一步寄了啊


                      IP属地:安徽12楼2025-05-06 12:03
                      回复