看到一张学习路径图,一个 AI 工程师的自我修养🤒 ​

今天 07:44转发|评论

推荐一款语音识别 APP,Whisper Transcription,这几天正好内购 Lifetime 限免中,原价是 88 元/年,可以下载体验下。 这款软件基本属于对 Whisper 模型的本地套壳,附加了诸多体验优化和额外功能模块。看来在大模型时代只要肯动手,还是有很多机会的😄 软件大小只有 10Mb,要支持语音识别,需要从 ​

今天 00:35转发|评论

经常看到社区推出各种 LLM,有 7B、13B、60B 等等,这些数值代表着模型的参数量,大家都知道数值越大,意味着模型的规模越大,那这些参数量到底是如何被计算出来的呢? ChatGPT 中的 GPT 全称是 Generative Pre-trained Transformer,它是基于 Transformer 架构建设的,市面上的大模型基本也采用此架 ​

12月2日 23:27转发|评论

论文,我认为就是写的比较专业的博客,它的格式非常八股,基本都是按照这样的结构来呈现的:标题 → 概要 → 导言 → 方法 → 实验 → 结论。 下文较长,主要提到了几个检索方法和阅读工具,强烈推荐下 PopAI, h++ps://bit.ly/412xQbH,体验做的很不错。 很多朋友说论文读起来太晦涩且耗时,但事实 ​

12月1日 13:34转发|评论

《揭秘拼多多:市值超越阿里,它是怎么做到的?》http://t.cn/A6lvgLBE,这篇文章的画面感很强,逻辑性也很强,重新认识了拼多多的文化。 比较好奇的是,这种文化,如果换了主帅,还会不会持续下去;假设公司遇到了危机,没有足够的钱留住员工时,文化还能传承么? ​

12月1日 09:01转发|评论

放下往往是最难的。事情在真实世界已经结束了,在心里却还在延续;当事人都已经放下了,旁观者却还穷追不舍。 放下,放过别人,也是放过自己。 ​

11月30日 17:04转发|评论

pdf2htmlEX 是一个值得推荐的 PDF 转 HTML 工具,h++ps://github.com/pdf2htmlEX/pdf2htmlEX,它生成的内容还原度非常高,几乎与原 PDF 一致。 我去扒了下这个项目的历史,h++ps://github.com/coolwanglu/pdf2htmlEX/wiki/Author%27s-Words,作者因朋友抱怨没有一个在线 PDF viewer,于是他就撸了一个 ​

11月30日 13:27转发|评论

Cloudflare Worker 已经支持了 Puppeteer 无头浏览器渲染了,它可以用于创建屏幕截图、抓取页面和测试 Web 应用程序等任务,h++ps://developers.cloudflare.com/browser-rendering/ 略有不同的是,Cloudflare fork 了 Puppeteer 代码做了一些修改,关键代码在这里:h++ps:// ​

11月30日 10:14转发|评论

AI 辅助阅读并自动总结网页概要的工具多如牛毛,但把这件事情做好却并不容易,因为网页上存在太多乱七八糟的 DOM,包括导航菜单、广告和推荐模块等等,如果不抓核心内容直接无脑扔给 AI 处理,那效果一定是不佳的,尤其是杂乱内容占比过高时。 做了一些技术调研,找到如下几个工具/库,它们均可以辅助 ​

11月29日 23:46转发|评论

学到两个读 arxiv PDF 论文的新技巧: 1)将域名中的 x 更换成 5,会跳转到 HTML 版本 2)将域名中的 v 更换成 w,会跳转到一个 AI Chat with PDF 版本 为了避免每次都手动修改,写了几句油猴脚本,会在 header 位置自动附加这两个链接:http://t.cn/A6lv0A4L #AI学习# ​

11月29日 22:18转发|评论

FunASR 是一个基础语音识别工具包,h++ps://github.com/alibaba-damo-academy/FunASR,相比 pyannote-audio 它的内容更加全面,包括了语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等模块,而且提供了非常多的预训练模型,h++ps:// ​

11月29日 10:00转发|评论

OpenAI 推出的开源免费 Whisper 在语音识别领域(ASR)可以说无出其右,不过它有一个较大的局限性,就是无法进行说话人分类(Speaker diarization),尤其是在重叠语音检测(Overlapped speech detection)方面,Whisper 在训练过程中只识别了一个声音,同时将其他声音视为背景噪声。 社区有一个发展 ​

11月28日 23:25转发|评论

self-operating-computer,h++ps://github.com/OthersideAI/self-operating-computer,这个项目演示了如何让 GPT-4V 来控制自己的电脑,你需要做的就是告诉它完成一个怎样的任务,例如,打开 Google Docs 写一篇文章,然后发布并分享给同事。 它的 Prompt 写的比较简单,定义了一个可以与机器交互的 D ​

11月28日 11:21转发|评论

Stephen Wolfram 是一名著作等身的初代程序员,他在 Youtube 上发布了一个 3h+ 的视频,《What is ChatGPT doing...and why does it work?》,http://t.cn/A6WFNnCJ,介绍了什么是 ChatGPT,以及它是如何工作的。 同时也整理了一份文字稿:http://t.cn/A6CwtHjy,把深奥的理论说得通俗易懂,如沐春风 ​

11月28日 10:40转发|评论

想让浏览器网址栏支持站内检索,例如输入「twitter + tab 键」就可以直接开始 Twitter 的站内搜索: 站长可以使用 OpenSearch 协议在站点内增加一个 XML 描述文件,通过 type 为 search 的 rel link 标签告诉浏览器即可: <link rel="search" type="application/opensearchdescription+xml" title=" ​

11月28日 09:56转发|评论

Progressive Web Apps (PWAs) 推出已经有八年多的时间了,http://t.cn/A6WFUWHw,这篇文章给出了一份 2023 年的统计报告,其中提到 2019 年 PWA 的全球市场价值为 11.3 亿美元,而 2027 年预计会达到 104.4 亿美元,普及率还会持续增长,今年的增长量就有 25%~30%。 在 Github 上找到一个 PWA Demo,h ​

11月28日 00:01转发|评论

看到一个屏蔽 Youtube 广告的新思路,代码十分简单,也超级鸡贼。 使用 MutationObserver API 识别到页面正在播放广告时(某些 DOM 节点会附加 ad-showing 之类的 class name),给 Video 自动设置成 16 倍速,10s 的广告不到 1s 就播放完毕😂 #web技术# ​

11月27日 16:20转发|评论

NordPass 公布了 2023 年 Top200 常见密码,其中“123456” 5 年 4 次登顶常见密码榜,可被 1 秒破解😂,相关文档:h++ps://nordpass.com/most-common-passwords-list/ 现在大多数的浏览器和系统层面都支持了原生的密码管理能力,十分建议针对不同的网站生成不同密码。个人使用的是 1Password,已经 ​

11月27日 14:46转发|评论

已查处。

凌晨刚醒 :项栋梁禁言了。[畅游] ​

11月26日 08:45转发|评论