嘴砲輸入法 Mac version 下載傳送門:https://github.com/jfamily4tw/voicetype4tw-mac/

 

因為我的Typeless快到期了,所以我就把同樣概念的想法,用Gemini跟Nebula手戳了一個地端的版本

透過Apple Silicon的Local Whisper來做語音的轉換,然後再串接API連結外部的LLM引擎來做優化(可自由選擇直出還是優化,甚至可以做翻譯)

推出的第一個版本給大家來試試看,有興趣的歡迎來測試一下啦

打包版本等之後再慢慢推出吧,我們先把Python版本修好

免費取用,覺得不錯的歡迎打賞,github裡面有Linepay帳號

下面詳細介紹一下這個軟體吧

 

發想

大家之前應該都看過我分享的Typeless語音輸入法神奇的地方,大家不要小看這每個月12元美金,這個應用20元,那個應用20元,十個應用加起來就是200美元,一年下來很可觀的

我就開始想說,能不能用龍蝦OpenClaw來做手搓的版本

 

因此一開始我是在我的Nebula GG,就是上一篇跟大家分享的「Nebula到底能不能捏爆龍蝦」的這個Nebula上面來做開發

 

起初開發的其實還蠻順利的,交代它要做什麼任務之後,我就去教女兒怎麼圈養龍蝦,等我再次回來的時候,雛形就出來了

Screenshot

但是後期的一些細部修改,因為它的模型沒辦法切換,因此總是差那一步啊(懂得都懂)

 

Antigravity接手

因為我都得在本地端跑軟體來測試語音轉文字效果,所以我就想乾脆開啟 Antigravity 來接手做後面優化已經添加更多功能的任務

有在玩龍蝦的朋友應該都知道,靈魂檔案這一直都是AI與人在溝通上面一個說起來很玄,但是想起來又很妙的一個東西

有興趣的夥伴可以看上面這影片中的解說

 

 

所以我也想在輸入法裡面也讓它能夠灌入靈魂的一個想法

因此,在這個設計上面,我就加了這個部分的東西,當然,有了靈魂之後,記憶也很重要。

 

因為我們常常在做輸入的時候,常常會有一些專有名詞,或是客戶的品牌名稱,這些都不會是一般常見的一些內容

自定義的智慧輸入方式呢,或者是說它在監控、在轉換語音轉文字的時候,什麼字會出現了三次以上

它就開始記錄標記

標記能夠讓我們快速檢索到這是不是我們常用的字彙,然後加入到我們的自定義的資料庫裡面

同樣的,在記憶的部分,我也希望讓它每個禮拜去做一個整合,把重點給節錄備份起來

 

語音轉文字

語音轉文字這個部分,就是俗稱所謂的STT、Speech-to-Text的這樣的一個轉換模型,上面市面上有非常多的Solution,不管是雲端的轉換,那其實這邊最重要的是在Apple的M-Chip晶片上面,它內建了Local的Whisper功能,因此我們只要在本地端就可以做到語音轉文字的功能,不需要任何的API,不用花錢,就可以本地轉換

 

TypeLess之所以好用,就是因為它加上了雲端的AI輔助優化功能,讓我們在講話的內容上面,不只是原意直接輸出,而是會透過LLM的分析,去優化我們輸出的結果

 

有些人有資安考量的話,其實你就不要開啟優化的功能,直接做語音轉文字的單純轉換;如果你想要有更進一步的功能,譬如說優化之外

 

我們還可以做一個快速的翻譯切換,直接翻譯成英文或是日文

這邊你可以用MenuBar上面的快速功能切換,或者是直接用嘴巴講語音的方式,直接跟他說把下面這段文字翻譯成英文,就會開啟翻譯模式

 

收音效果

按下魔術按鍵之後,要怎樣確知它已經接收到我們的聲音呢,當然我這是從Typeless上面學來的,那這些UI介面全部都是AI自己寫的,不是我寫的,我根本不會啊;然後就除了推出了這個點子,剩下它就去模仿出來這樣的一個效果,再加上錄音中、辨識中,AI有沒有這樣子介入的功能,會有各種不同模式的呈現

 

數據統計

怎麼樣讓你的使用者覺得這個軟體真的好用?那當然就是把他使用的狀況全部記錄下來啦,比如說他總共用語音錄了多少秒的時間,然後這些轉換成為每個人平均一分鐘可以輸入字數的時候,我們自然就可以轉換成總共幫他省下多少打字的時間了

這個就像是汽車界的際里程停止器,你以為原廠算不出來你這台車的實際里程是多少嗎?

當然算得出來啦,它還有引擎的運轉時數,還有變速箱的運轉時數,來各式各樣的資訊可以回推你這台車實際上到底跑了多少里程

 

後記

吉米手搓的這個嘴砲輸入法呢,其實就是一個Vibe Coding的一個範例啊

我從有這樣的一個想法,然後這樣請AI去做出來,直到實際上架到GitHub,免費給大家下載使用,喜歡的人就自己去裝、自己去改

當然啊,這中間呢,沒有任何費用產生,你不需要去購買任何的API、任何的Token付費來做這件事情,你只要自己會搞這些就OK了

之後呢,吉米還會提供這個APP的版本,你只要下載之後直接執行就可以了

如果你覺得不錯的話呢,歡迎大家提供一些購買使用的建議,或者說改進的建議給吉米

在AI能力可及的範圍之內,當然不是我能力可及的範圍之內,我會來去做修改、來進化

那如果你也喜歡這個軟體的話呢,當然歡迎大家到斗內來打賞囉,我的連結在下面啦

歡迎打賞

 

下載傳送門

https://github.com/jfamily4tw/voicetype4tw-mac/

 

最後的最後

 

來分享一下語音辨識之後,丟到雲端OpenRouter的LLM分析優化會花多少錢,從到目前我開發一天,總共錄了1083秒之後,總共書出了1萬1千多個字,實際上在OpenRouter上面的token花費是0.02塊美金,我這邊只用了Gemini-2.0-Flash來做LLM優化

 

一開始的UI長這個樣子,這是最早版本的UI,因為我覺得實在太醜了,所以我請Gemini呼叫NanoBananaPro來幫忙畫新的UI,就是大家後來看到的樣子,是不是就很有NanoBanana的風格呢