成为小说家吧 关注:31,464贴子:66,722
  • 54回复贴,共1

长期任务·日语汉字化

只看楼主收藏回复

rt


IP属地:广东1楼2021-02-06 13:07回复
    目标
    把日语现在汉字·片假名·平假名·罗马音,4者并用的情况进行简化,远期目标是简化为只是用汉字和罗马音,中期目标是类似于中文夹英文单词的形式
    具体实施内容
    1、拟声词无论平假名,片假名全部替换为罗马音
    2、舶来词以片假名表示的,还原为原文,更进一步,如果这个舶来词在中文里有对应的译名,用这个译名替换
    3、平假名的,能用汉字表示就用汉字表示


    IP属地:广东2楼2021-02-06 13:11
    收起回复
      跟Anglish差不多吗?语言纯化?
      好像也不对,这样应该对标纯和语词的日语


      IP属地:广东来自手机贴吧3楼2021-02-07 06:04
      收起回复
        确实有研究价值。这个目标跟翻译有没有明确界限?如果是翻译变种,结合翻译技术或许能够很快实现,即重心是优化翻译内容。如果不是翻译,而是一种新语义定义,即语法特征依然沿用日语,只是词语进行合理转换,那么重心是语法处理。换句话说,把语法表示的语义分解开来(用汉语的词语代替)。非语法的内容,只要有词库,还是能够较好替换。


        IP属地:广东4楼2021-02-07 10:21
        收起回复
          如果只是以翻译为目标,我就说我感觉有些困难的地方,那就是极其生僻的片假名外来词,比如:禍つヴァールハイト,这是灾祸➕真理(德语)。英文反倒是比较容易理解的了。


          IP属地:内蒙古来自Android客户端5楼2021-02-10 20:09
          收起回复
            我在整理文法的时候,发现还是有很多结构需要转换。转换后,句子剩下的大部分是比较容易理解的名词和动词。这个内容整理还是有些费力,现在还是我人工写逻辑,没有比较好的自动逻辑。这部分不知道有没有好的方法
            之前开始整理了动词那部分的例子,内容倒不多。然而文法那部分,量还是特别大,但是价值很高。语法逻辑多还是可以慢慢处理,但是表现和替换是一个问题。要准确在指定位置替换和选定合理词汇,还是有点困难
            就以教材一级の文法为例:
            第一个“~いかん”(~i ka n,~不行)
            第二个的~いかんによらず(~i ka n n ni yo ra zu,~不管与否)
            我们可以把它认为一个普通词汇(准确点是结构助词),但是这种替换在表现和语境上还是有点麻烦。当我看到这些音时,其实我是理解它的意思的,这时替换后反而困扰我(不同语境解释存在差异,类似一词多义,但是也属近义)。注音(包括平假名)和汉化的,需要找到一个比较好的权衡点(表现手段上区分也可以)
            综合来看,需要有一定量的例子来看替换效果合不合理,然后考虑进一步优化


            IP属地:广东7楼2021-03-17 10:07
            收起回复
              简单例子(未完成包括假名汉字化等工程)
              原文:汉字的顺序不影响阅读
              机翻:漢字の順番は読書に影響しません。
              汉字化:漢字の順番読書影響没有
              其中机翻对应现有日文怎么说,原文就是翻译软件的目标结果,汉字化则是本贴里描述的效果(忽略最后的“没有”可能日语里没这个用法)


              IP属地:广东来自Android客户端8楼2021-03-18 09:07
              回复
                结合上面例子谈一下技术方面的。这是我用有道和彩云翻译的结果:
                漢字の(no)順番は(ha)読み(yo mi)に(ni)影響しません(shi ma se n)
                漢字の(no)順序は(ha)読み(yo mi)に(ni)影響しない(shi na i)
                (上面的注音可以参考常用汉字、动词分类的变形、敬语)
                它们的区别只是用不用敬语。替换的时候ない(shi na i)和ません(shi ma se n)可以认为都是否定。
                非否定情况(即肯定),动词(第三类)会保留する(su ru),敬语则去除する(su ru)并加上する(ma su)。
                読む(yo mu)这个词汇,由于这里需要作为名词,所以它用了动词的名词化,即[う]段→[い]段。
                剩下的假名都是很常用的助词,无实意或者很明确(不替换也知道要用什么助词)。
                这些变形,若要完整编写,真的得把大部分文法熟读。所以,这里是否要简化逻辑。
                助词,没有实意或者熟知的,只要有注音即可理解(罗马音比假名更容易理解,所以也算解决认知困难)。
                变形格式,说实在的,没有必要完全解读(好吧,我承认懒,内容真的多~)。换句话说,变形只是一种语义扩展(否定、被动等),原型才是关键。基于最大匹配找到单词,直接替换即可。变形的残留(扩展部分),认为助词即可,而这个跟其它助词一样,用户自己再进一步认知即可。
                解决变形这个问题,剩下词汇的积累。我认为,构建一个词库难度不大。甚至可以采用学习方式,渐进积累或训练一批数据。留给用户的,就只是无障碍的助词。
                最后就要看看表现方式,即替换的内容要如何融入句子。我是不喜欢把原文移除。所以,注音是比较合理的方式,问题是,对齐可能不好。


                IP属地:广东9楼2021-03-19 10:45
                收起回复
                  这层是拉人帮忙积累文本量的


                  IP属地:广东10楼2021-03-19 20:41
                  收起回复
                    更新了片假名替换的插件,增加提取假名并翻译的功能,可以看看汉化效果。
                    首先,需要在更多选项里面点击“拷贝段落”后面的“假名”,开启拷贝假名快捷键。
                    然后,使用快捷键“ALT+K”进行段落检查。由于这个功能只对段落进行检查,所以建议使用syosetu的文章。
                    拷贝的内容有以下特点:
                    拷贝的假名会全部放在上一行。该行有一个虚线边框。
                    每组匹配假名,会增加一段不翻译并注音的原文(中括号部分)和一段可翻译的原文。
                    原段落增加不翻译属性。
                    鼠标悬浮在原段落的原文上面时,它会跟拷贝的内容一起高亮。

                    使用chrome自带的翻译的功能(右键菜单里面),进行网页翻译。这时,只有拷贝的原文会被翻译,其它都保持原样。

                    按下CTRL,点击原段落的原文,可以把翻译的内容拷贝过来。再次点击,恢复原来的内容。
                    另外,双击内容,可以触发单词检查并选中。通过这个方法,可以快速确定单词范围,即简单分词功能。结合拷贝的假名,可以了解一些变形和助词。

                    谷歌翻译挺古板,很少进行语法润色。然而,在这个功能里面,它很好发挥字典功能,其实也就是我上面说的最大匹配替换功能。
                    有明显实意的翻译,基本就是单词或文法,其它都可认为是无实意的助词。
                    如果要让翻译内容更加准确,需要考虑导入一批词库。


                    IP属地:广东11楼2021-03-21 14:40
                    回复