Llama3.1 8B 使用《史记》七十列传文本数据微调训练，实现现代文翻译至古文，效果还不错! | colab | unsloth | hugging face | 大模型微调

AI转转转

Просмотров 23 тыс.

Добавить в
- Мой плейлист
- Посмотреть позже
Поделиться

HTML-код

Размер видео:

Показать панель управления

Автовоспроизведение

Автоповтор

Опубликовано: 22 окт 2024

Комментарии • 59

@way2ml 2 месяца назад ⁺⁵
很有意思! 看完之后有一种感觉: 留给人类的时间不多了.
@GaryWee111 2 месяца назад ⁺⁴
非常详细的步骤，谢谢你的教学！
@ai-spinX3 2 месяца назад ⁺¹
不客气，非常感谢观看！
@shih-shengchang19 Месяц назад
非常詳細的解釋，感謝您的分享。
@larryli3345 2 месяца назад ⁺³
非常棒的一个例子！
@YCM2H 9 дней назад
非常NICE
@MW-qu9ls Месяц назад ⁺¹
有意思，感谢分享
@AterasMenethill 2 месяца назад ⁺²
great job
@user-ih8ku2rb8b 2 месяца назад ⁺²
有意思，用幾千年的底蘊重朔現代文學，我覺得有前途！
@6612-i5s 2 месяца назад ⁺²
牛逼阿老哥
@forthechanger 2 месяца назад ⁺²
结果不错啊
@Mekkagravity 2 месяца назад ⁺¹
也可以做詩，例如幾句現代話，等翻譯成古文後再修一下。不錯且實用的AI
@kaikang958 2 месяца назад ⁺²
建議每個樣本多一些句子，可以加強模型上下文能力。
@xaoyei6243 Месяц назад ⁺²
古文能读懂的话还是古文好，言简意赅，留给人很足的想象空间
@ai-spinX3 Месяц назад ⁺¹
对，古文有种简洁的美
@shrektan6460 2 месяца назад ⁺⁶
挺好的。但是建议视频语言再精简点。我两倍速感觉和正常说话速度似的😂
@ai-spinX3 2 месяца назад ⁺¹
很好的建议，谢谢！
@kwingwingchan7540 2 месяца назад ⁺⁴
这速度刚好，你只听乐子，自己调2倍速，有人要跟着实操，太快跟不上的
@laobaGao-y7f 2 месяца назад ⁺²
有意思，本来想用自己的聊天记录和随笔训练个数字化身，但感觉要上传这么多东西就有点不敢了
@jamesbong5070 День назад
这样可以看马王堆帛书《道德经》吗？现在太多解读，想看看 Ai 版本的。😂
@ai-spinX3 День назад
你说的这种情况感觉是从从古文到现代文的翻译。这样的话，一般市面上的AI应该也是能做到的
@jianwang2011 Месяц назад
数据集整理的脚步放出来吧，很有用，谢谢
@ai-spinX3 Месяц назад
不客气！脚本的Link（"生成训练数据集时所使用的convert.py"）放在视频描述里面了。
@gozeroteam836 2 месяца назад ⁺²
有点意思！
@好轻对其 2 месяца назад ⁺²
建议主播搞一个某一专业领域的汉译英视频
@lee1221ee 2 месяца назад ⁺²
請問上傳到 Hugging Face 是必要嗎？能都在本地端？
@ai-spinX3 2 месяца назад ⁺¹
完全可以。在本地跑要注意两点：一个是本地的机器的性能（CPU，GPU，Memory，磁盘空间这些），另一个是操作系统。unsloth在windows下安装很繁琐，推荐是linux或者wsl。也有unsloth的替代品，但是似乎对windows的支持都不是很友好。
@tfccheng Месяц назад
我看见有些字UTF-8显示乱码。会影响训练吗？跟copilot比较一下。
@ai-spinX3 Месяц назад
是训练数据里面吗？那有可能受到影响。
@TodThad Месяц назад
AI把“不放松对自己的要求”翻译成“自驰”没啥问题，原文“不容自疏”应翻译成“不容许对自己疏忽不谨”
@sheldonchen8933 2 месяца назад ⁺³
你好， convert.py可以分享一下吗？~
@ai-spinX3 2 месяца назад ⁺¹
没问题，我放到这里了 gist.github.com/lanesky/6092906644c36d16ad39df3ac6d623d2
@forthechanger 2 месяца назад ⁺²
可惜微调的样本太小了,应该把二十四史全部弄进去就好了!
@kwingwingchan7540 2 месяца назад ⁺²
他只是示范，你可以把现有的都拿去训练成你的AI
@bugtan7909 2 месяца назад ⁺²
llama3.1哪个版本的需要多少显存微调
@ai-spinX3 2 месяца назад ⁺²
8b版本，你可以看视频描述里面的colab的链接，里面有训练使用的版本，还有训练前后的资源对比
@timidlove 2 месяца назад ⁺¹³
这个例子充分说明了文本质量文言文 > 白话文>现代汉语>网络汉语
@lawliet357 2 месяца назад ⁺¹
😂
@shiyiyuan6318 2 месяца назад ⁺³
老祖宗其实是最善于抽象的，很简单的几句诗，能表达很丰富的内容，白话文，更适合扫盲，但是文字就多了
@soridnix1610 2 месяца назад ⁺¹
有道理😀
@MW-qu9ls Месяц назад ⁺²
文言文确实精炼，不过会丢失内容，白话文啰嗦，好处是可以尽可能的描述，如果先人愿意用白话文把历史啰嗦一遍，后人很多事情也不用交叉比对冥思苦想了
@gavinren2809 Месяц назад
执行到第二个代码片段的时候一直报错，就是这行报错from unsloth import FastLanguageModel
@ai-spinX3 Месяц назад
有可能是unsloath更新了他们的代码。你可以到unsloath的github网站上，试试他们最新的colab。
@junzhang-f5r 2 месяца назад ⁺²
文本怎么转数据集？有工具吗？
@ai-spinX3 2 месяца назад ⁺¹
我写了个convert.py脚本，供参考。链接在视频描述里面了。
@timidlove 2 месяца назад ⁺²
能不能训练一个鲁迅
@ai-spinX3 2 месяца назад ⁺²
理论上可行。可以在训练数据集中把input设为正常说话方式的数据，output中设为鲁迅风格说话方式的数据。
@RoaldsXean Месяц назад
LM无法配置到网络，这是怎么回事呢？
@ai-spinX3 Месяц назад
是指LM Studio搜索不到模型吗？
@RoaldsXean Месяц назад
@@ai-spinX3 是的，搜索时候显示error
@ai-spinX3 Месяц назад
是不是所有的hugging face上的模型都搜索不到？如果是这样的话，有可能是因为您的网络环境受限，不能通过LM Studio连接到hugging face上。
@RoaldsXean Месяц назад
@@ai-spinX3 你这么说的话应该是的，那这个有什么解决方案呢
@ai-spinX3 Месяц назад
您可以参考下面两篇文章。我都没有尝试过，仅供参考！
- 这篇是github上的，关于直接把hugging face上下载的文件放在本地文件夹里面。
github.com/lmstudio-ai/configs/issues/11#issuecomment-1902602501
- 这篇是CSDN上，可能和您的情况类似。
blog.csdn.net/robinfoxnan/article/details/139336901
@帅小柏 2 месяца назад ⁺¹
ollama run 超时怎么办
@ai-spinX3 Месяц назад
抱歉回答晚了，在ollama里面的话需要声明一个model file然后build，在本地应该可以的。可以参考我的这个视频：ruclips.net/video/bVdUoQwaIXE/видео.htmlsi=q6KpN8mE2ap0yu65
@CreativeEnglishTeaching 2 месяца назад ⁺¹
有没有可用的直接可下载下来的可翻译成古文的这样的模型？
@ai-spinX3 2 месяца назад ⁺²
在视频里面训练好的模型已经放到hugging face上了，地址在视频描述里面。

Следующие

Автовоспроизведение